2025-03-28 diary: 音声データから会話テキストを抽出する方法 (whisper.cpp)

日記形式でつづるいがぴょんコラムウェブページです。

音声データから会話テキストを抽出する方法 (whisper.cpp)

音声データから会話テキストをローカルPCで高品質に（無料で）抽出する方法として whisper を使用しました。好印象です。私の macOS 環境の場合は whisper.cpp と ggml-large-v3.bin の使用が快適でした。

ffmpeg -i input.wav -f segment -segment_time 600 -c copy input_part_%03d.wav

whisper.cpp を使い、ggml-large-v3.bin モデルで音声からテキストを抽出します。

最初に clone して make します。

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
make

モデル large-v3.bin をダウンロードします（※ファイルサイズは約3GB）。

./models/download-ggml-model.sh "large-v3"

そして、音声データからテキストデータを抽出します。

./build/bin/whisper-cli -m models/ggml-large-v3.bin -f input_part_000.wav -l ja -otxt

有償ソフトやクラウドを利用せずに、ローカル環境で音声データからテキストデータを抽出できてちょっと嬉しいです。

なお、上記手順は、2025/06/07 にあらためて確認して更新した手順です。

Last modified: $Date: 2025-06-07 $

ホームページ更新者: 伊賀敏樹 / Tosiki Iga
Diary / Facebook / LinkedIn / GitHub / Qiita / Mastodon / X(Twitter) / Amazon / Share on Twitter / top / いがぴょんについて / Powered by Igapyonv3
本サイトの見解は、私個人のものであり、株式会社レザボア・コンサルティングは当個人的見解に一切責任を持ちません。