top / index / prev / next / target / source
日記形式でつづる いがぴょんコラム ウェブページです。
音声データから会話テキストをローカルPCで高品質に(無料で)抽出する方法として whisper
を使用しました。好印象です。 私の macOS 環境の場合は whisper.cpp と ggml-large-v3.bin の使用が快適でした。
ffmpeg -i input.wav -f segment -segment_time 600 -c copy input_part_%03d.wav
whisper.cpp を使い、ggml-large-v3.bin モデルで音声からテキストを抽出します。
最初に clone して make します。
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
make
モデル large-v3.bin をダウンロードします(※ファイルサイズは約3GB)。
./models/download-ggml-model.sh "large-v3"
そして、音声データからテキストデータを抽出します。
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f input_part_000.wav -l ja -otxt
有償ソフトやクラウドを利用せずに、ローカル環境で音声データからテキストデータを抽出できてちょっと嬉しいです。
なお、上記手順は、2025/06/07 にあらためて確認して更新した手順です。
Last modified: $Date: 2025-06-07 $