https://pydocument.hatenablog.com/entry/2023/04/02/110248

会議録音・講演会の書き起こし、会議議事録の自動作成など、音声認識技術は様々な場面で活用されています。Python の SpeechRecognition パッケージを使用すると、音声データからテキストへの書き起こしを簡単に行うことができます。この記事では、SpeechRecognition の基本的な使い方、具体的なコード例、エラー対策、そして実際のユースケースへの応用例を解説します。

SpeechRecognition とは

SpeechRecognition は、Google Speech Recognition、Whisper、CMU Sphinx など、複数の音声認識エンジンに対応した Python ライブラリです。オフラインでも使用できるエンジンもあり、用途や環境に応じて柔軟に選択できます。

環境準備

まず、SpeechRecognition をインストールします。

pip install SpeechRecognition

合わせて、PyAudioが必要な場合はインストールします。

pip install pyaudio

音声書き起こしの基本ステップ

音声ファイルからの書き起こしは、以下のステップで行います。

音声ファイルの読み込み: AudioFile クラスで音声ファイルを開きます。
音声データの取得: Recognizer クラスの record() メソッドで音声データを読み込みます。
テキスト変換: recognize_google() などのメソッドで音声をテキストに変換します。

サンプルコード (WAV ファイル)

import speech_recognition as sr

# Recognizer インスタンスの作成
r = sr.Recognizer()

# 音声ファイルの読み込み (WAV形式)
with sr.AudioFile("audio.wav") as source:
    audio = r.record(source)

# Google Speech Recognition でテキスト化 (日本語)
try:
    text = r.recognize_google(audio, language="ja-JP")
    print("認識結果:\n", text)

    # テキストファイルに保存
    with open("output.txt", "w", encoding="utf-8") as f:
        f.write(text)

except sr.UnknownValueError:
    print("音声を認識できませんでした。")
except sr.RequestError as e:
    print("音声認識サービスに接続できませんでした: {0}".format(e))

sr.AudioFile("audio.wav")の処理で対象となるaudio.wav の音声ファイルを読み込みます (ファイル名は適宜変更してください)。その後、 r.record(source)で音声データを AudioData オブジェクトとして読み込みます。最後に Google Speech Recognition r.recognize_google(audio, language="ja-JP")を使用し、音声を日本語テキストに変換します。

様々な音声ファイル形式への対応

SpeechRecognition は WAV 形式以外にも、AIFF、FLAC など、様々な形式に対応しています。下記のようにコードを書き換えます。

AIFF ファイル

with sr.AudioFile("audio.aiff") as source:
    audio = r.record(source)

FLAC ファイル

with sr.AudioFile("audio.flac") as source:
     audio = r.record(source)

ただし、FLAC ファイルを使用する場合は、別途 FLAC エンコーダーが必要です。macOS では brew install flac、Linux では sudo apt-get install flac などでインストールできます。

応用編: マイクからのリアルタイム音声認識

Microphone クラスを使用すると、マイクからの音声をリアルタイムで認識できます。

import speech_recognition as sr

r = sr.Recognizer()

with sr.Microphone() as source:
    print("何か話してください...")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language="ja-JP")
    print("認識結果:", text)

except sr.UnknownValueError:
    print("音声を認識できませんでした。")
except sr.RequestError as e:
    print("音声認識サービスに接続できませんでした: {0}".format(e))

sr.Microphone()はデフォルトのマイクを使用します。デバイスインデックスを指定することも可能です (sr.Microphone(device_index=1))。r.listen(source)の処理はマイクからの入力を待ち受け、音声が検出されたら AudioData オブジェクトとして返します。

よくあるエラーとその対処法

ここでは、SpeechRecognition の利用時によく発生するエラーとその対処法について解説します。

`ModuleNotFoundError: No module named 'pyaudio'` が発生する場合

このエラーは、PyAudio がインストールされていないことを意味します。pip install pyaudio コマンドで PyAudio をインストールしてください。

`sr.UnknownValueError` が発生する場合

このエラーは SpeechRecognition が音声を認識できなかった場合に発生します。音声ファイルの品質が低い、発音が不明瞭、または選択した音声認識エンジンが対応していない言語である、などの原因が考えられます。音声品質を改善したり、別の音声認識エンジンを試すことが必要です。例えば、ノイズが多い場合は、ノイズ除去処理を試したり、静かな環境で再録音を行ってください。また、recognize_sphinx や recognize_whisper など、他のエンジンを試すことで解決する場合があります。

`sr.RequestError` が発生する場合

このエラーは、SpeechRecognition が音声認識サービスにアクセスできなかった場合に発生します。インターネット接続の問題、API キーの認証エラー、またはサービス側の問題などが考えられます。まずは、インターネット接続が安定しているか、プロキシ等が邪魔していないか確認してください。APIキーを使用している場合は、キーが有効で、利用制限を超えていないか確認します。

Pythonで学ぶ音声認識機械学習実践シリーズ [ 高島遼一 ]

SpeechRecognitionの応用・ユースケース

SpeechRecognition は、単なるテキスト化だけでなく、他の技術と組み合わせることで、様々な応用が可能です。

議事録作成の自動化 (話者分離との連携)

会議の録音データを SpeechRecognition でテキスト化する際、「誰が」「いつ」発言したかを識別する話者分離技術と組み合わせることで、より高度な議事録作成支援システムを構築できます。

Python製のオープンソースツールキットであるpyannote.audioは話者ダイアリゼーション(誰がいつ話したかの特定)に特化しており、Google Cloud Speech-to-Textも話者分離機能をAPIとして提供しています。これらのツールをSpeechRecognition と連携させることで、音声データを話者ごとに分割した形式の議事録を生成できます。

音声コマンドによるシステム制御 (組み込み/IoT 応用)

マイクからのリアルタイム音声認識は、特に組み込みシステムや IoT デバイスとの相性が良いです。PocketSphinxという音声認識エンジンは軽量な音声認識エンジンで、特定のキーワード（ウェイクワード）を検出するキーワードスポッティングに適しています。また、PocketSphinxはオフラインでも動作します。

Raspberry Pi などのシングルボードコンピュータと SpeechRecognition (または PocketSphinx) を組み合わせ、音声で家電を制御するシステムなどを構築できます。例えば、特定のキーワードが検出されたら、GPIO を制御してリレーを操作し、照明やモーターなどを制御するといったことが実現可能です。

多言語対応の音声翻訳システム (機械翻訳 API との連携)

SpeechRecognition で音声をテキスト化した後、機械翻訳 API と連携させることで、リアルタイムの音声翻訳システムを構築できます。Google Translate API、DeepL API、Microsoft Translator API など、高精度な機械翻訳を提供するサービスが多数存在します。

SpeechRecognition で音声をソース言語のテキストに変換し、機械翻訳 API を使用してターゲット言語のテキストに翻訳する、という流れで連携が可能です。さらに、音声合成 (TTS) エンジンを使用して、翻訳されたテキストを音声で出力することも可能です。リアルタイム性を重視する場合は、API の応答速度や処理遅延を考慮する必要があリマス。オフラインでの利用が必要な場合は、ローカルで動作する機械翻訳モデル（例：Hugging Face Transformers）の利用を利用することも可能です。

まとめ

SpeechRecognition は、Python で手軽に音声認識を実装できる強力なライブラリです。様々な音声ファイル形式やマイク入力に対応し、複数の音声認識エンジンを利用できます。応用例で紹介したような様々なシステムと組み合わせることで、活用の幅が大きく広がります。

[PR]

click.linksynergy.com