top / index / prev / next / target / source

2025-03-28 diary: 音声データから会話テキストを抽出する方法 (whisper.cpp)

いがぴょんの日記 日記形式でつづる いがぴょんコラム ウェブページです。

音声データから会話テキストを抽出する方法 (whisper.cpp)

音声データから会話テキストをローカルPCで高品質に(無料で)抽出する方法として whisper を使用しました。好印象です。 私の macOS 環境の場合は whisper.cpp と ggml-large-v3.bin の使用が快適でした。

入力音声データは 10分ごとに分割します(取り扱いやすい)

ffmpeg -i input.wav -f segment -segment_time 600 -c copy input_part_%03d.wav

whisper コマンドをもちいて音声データからテキストデータを抽出

whisper.cpp を使い、ggml-large-v3.bin モデルで音声からテキストを抽出します。

whisper.cpp を clone してビルド

最初に clone して make します。

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
make

音声認識で利用するモデルをダウンロード

モデル large-v3.bin をダウンロードします(※ファイルサイズは約3GB)。

./models/download-ggml-model.sh "large-v3"

whisper をもちいて音声認識を実行

そして、音声データからテキストデータを抽出します。

./build/bin/whisper-cli -m models/ggml-large-v3.bin -f input_part_000.wav -l ja -otxt

感想

有償ソフトやクラウドを利用せずに、ローカル環境で音声データからテキストデータを抽出できてちょっと嬉しいです。

なお、上記手順は、2025/06/07 にあらためて確認して更新した手順です。

Last modified: $Date: 2025-06-07 $


この日記について