https://touch-sp.hatenablog.com/entry/2023/05/18/223740

はじめに

以前「Whisper」というのを用いて日本語音声の文字起こしをしました。
touch-sp.hatenablog.com
「Whisper」は多言語に対応していますが今回の「ReazonSpeech」は日本語専用です。
そのため日本語に限れば「Whisper」より精度が高いとのことです。

環境

PyTorch==1.12.1が指定されていたので以下の環境を用いました。

Ubuntu 20.04 on WSL2
CUDA 11.6
Python 3.9

pip install torch==1.12.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install wheel
pip install git+https://github.com/reazon-research/reazonspeech.git

Ubuntuにはあらかじめffmpegをインストールしています。

sudo apt install ffmpeg

「ffmpeg-python」というPythonパッケージのインストールは不要です。

実行

import reazonspeech as rs
for caption in rs.transcribe("audio.wav"):
    print(caption)

たったこれだけでした。モデルのダウンロードも自動で行われます。

補足

上記の例では音声ファイル「audio.wav」を指定していますが動画ファイル（拡張子 mp4など）を指定しても問題なく動作しました。

ランキング参加中

プログラミング

さいごに

「Japan-eat」様の記事を読みブックマークボタンを配置してみました。
www.japan-eat.com
いろんな人に読まれるとやっぱりうれしいですからね。単なる備忘録ブログですが。