WSLでwhisper_micを動かす

whisperをつかってリアルタイムの音声の書き起こしをするやつを動かす。
これ↓ マイクに話しかけた言葉を,リアルタイムにAIが認識(whisper, whisper_mic, Python を使用)(Windows 上)

sudo apt install -y portaudio19-dev python3-pyaudio
sudo apt install -y ffmpeg

gh repo clone mallorbc/whisper_mic
cd whisper_mic
# python --version
# 3.10.10
pip install -r requirements.txt
python -m pip install click
python -m pip install pyaudio
# Windows側でpulseaudio起動する
.\pulseaudio.exe
# うちのGPUではsmallが限界。
python mic.py --model small

※WSL2でマイク入力をさせる

感想

WSLでマイク入力させるのがたいへんだった。pulseaudioさえ設定すればwsl2側はwslgが有効なら適当に設定で問題なかった。(PULSESERVERのIP設定いらん。)
あとは音声入力をlistenするときにphrase_time_limitを設定してあげないと永遠に待ちに入ってしまうのはよくわからん。ローカルで動かす分にはぼちぼち読み取ってくれるけど、実用できるかというと微妙。largeとか動かせるGPUがあれば精度いいのかな。
あと、何も言ってないと「ご視聴ありがとうございました。」が無限にでてくるのこわい。次回はおいしい食べ物紹介される…。

ご視聴ありがとうございました