はじめに
以前「Whisper」というのを用いて日本語音声の文字起こしをしました。touch-sp.hatenablog.com
「Whisper」は多言語に対応していますが今回の「ReazonSpeech」は日本語専用です。
そのため日本語に限れば「Whisper」より精度が高いとのことです。
環境
PyTorch==1.12.1が指定されていたので以下の環境を用いました。Ubuntu 20.04 on WSL2 CUDA 11.6 Python 3.9
pip install torch==1.12.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116 pip install wheel pip install git+https://github.com/reazon-research/reazonspeech.git
Ubuntuにはあらかじめffmpegをインストールしています。
sudo apt install ffmpeg
「ffmpeg-python」というPythonパッケージのインストールは不要です。
実行
import reazonspeech as rs for caption in rs.transcribe("audio.wav"): print(caption)
たったこれだけでした。モデルのダウンロードも自動で行われます。
補足
上記の例では音声ファイル「audio.wav」を指定していますが動画ファイル(拡張子 mp4など)を指定しても問題なく動作しました。さいごに
「Japan-eat」様の記事を読みブックマークボタンを配置してみました。www.japan-eat.com
いろんな人に読まれるとやっぱりうれしいですからね。単なる備忘録ブログですが。