https://tkg5th.hatenablog.com/entry/2019/10/09/000000

　多言語対応のテープ起こしサイト｢IBM Watson Speech to Text｣を紹介します｡

概要

　IBM Watson Speech to TextはIBMのWatsonがクラウド上でAPIとして提供する、Deep Learningを活用した音声認識システムです。英語、日本語、中国語など多くの言語に対応しています。有料の契約をすればカスタマイズ機能を利用でき、特有の単語や言い回しを学習させることができます¹。
　クリアな音声であればあるほど精度が高くなるので、英語の教科書の音声を起こして穴埋め問題を解くのに重宝しました･･･。

　Node.js版（ソースアプリケーション）はGithubで公開されています。利用にはIBM Cloudの無料アカウントが必要です。 github.com

　逆に、テキストから音声にしたい場合はこちら。 tkg5th.hatenablog.com

使い方

デモサイトを開く。
「Voice Model」から言語を選択する。基本的に「broadband model（16kHz）」を選択する。
話者が複数人いる場合は「Detect multiple speakers」にチェックを入れる。
「Keywords to spot」の枠内の文字をすべて消して、テープ起こしでハイライトしたい単語をカンマ区切りで書く（よくわからなければ何も書かなくても良い）。
「Upload Audio」から音声ファイルを参照する。現在、mp3 / mpeg / wav / flac / opus ファイルに対応している。
音声が流れ始め、起こされた文字が下枠にリアルタイムに表示される。「Word Timings and Alternative」では各単語における信用度と他候補がみられる。

お値段はこちら ↩