キーボードショートカットを押して話すだけで音声を文字起こしするオープンソース
ソフトウェアが「Whispering」です。ローカルで実行可能&ローカルにデータが保存される点、文字起こしした文章がクリップボードにコピーされてすぐ貼り付けられるようになる点が特徴です。
epicenter/apps/whispering at main · epicenter-so/epicenter · GitHub
https://github.com/epicenter-so/epicenter/tree/main/apps/whispering
WhisperingはWindows、Mac、Linuxへの公式インストール手順が用意されています。Windowsの場合、リンク先のWhispering_7.3.0_x64_en-US.msiをクリックしてファイルをダウンロードし、実行します。
セットアップウィザードが立ち上がるので「Next」をクリック。

インストール先を確認して「Next」をクリック。

「Install」をクリック。

インストールが終わったら「Finish」をクリックしてWhisperingを立ち上げます。

立ち上がると右下にポップアップが表示されるので1つ1つ確認します。まずは「Install FFmpeg」をクリック。

音声変換ソフト「FFmpeg」のインストールを強く推奨するとのことで、インストール手順が表示されます。これに従ってFFmpegをインストールします。

まずはスタートメニューを開いてコマンドプロンプトを「管理者として実行」します。

手順にある「winget install ffmpeg」というコマンドをペーストしてエンターキーを押すと、インストールが進行します。

Whisperingを再起動して「FFmpeg is Installed」と表示されていたら完了です。

「View Update」を押してアップ
デートも実施しておきます。

押すと以下のように表示されるので「Download & Install」をクリックして完了。

最後に「Configure」をクリック。

使いたい
モデルをダウンロードします。「Tiny」「Small」「Medium」「Large v3 Turbo」の4つがあり、ひとまず動作確認をするだけなら「Small」がベスト。

ダウンロードが完了すると「Activated」と表示されます。

さらに、
モデル選択画面で下にスクロールして「Output Language」を変更しておきます。デフォルトではAutoですが、Autoだと
日本語に反応しにくいので、
日本語を吹き込むときは明示的に「Japanese」を選択した方が良いです。

メインメニューに戻り、
キーボードショートカット「Space(録音オン/オフ切り替え)」または「P(プッシュトゥトーク)」を押して声を入れると、自動的に録音・文字起こし・文字起こしした文章のコピーまでを実行してくれます。以下は「吾輩は猫である」と吹き込んだ結果ですが、Small
モデルだと精度はほどほどな様子。ただ、Medium以上の
モデルをダウンロードしようとしてもうまくいかなかったため、今回はSmall
モデル以外の使用を断念しました。

他にも、25MBまでのファイルアップロードに対応しています。

録音・音声ファイルともに、文字起こしの結果がクリップボードに記録されます。

歯車アイコンをクリックすると各種設定が可能。

結果をクリップボードにコピーするか、しないかの設定。

録音・マイク・ビットレートの設定。
APIキーを使う設定など。WhisperingはOpenAI、Anthropic、Groq、Google、ElevenLabsの
APIキーに対応していて、
APIキーを入れるとローカルではなく各サービスを介した文字起こし処理が可能です。

その他、
ショートカットは以下の通りです。

ダウンロード不要でウェブから試せるデモ版も提供されています。無料で利用できますが、Groqの
APIキーを取得して入力する必要があります。
Whispering
https://whispering.epicenter.so/