多言語対応のテープ起こしサイト「IBM Watson Text to Speech」を紹介します。
概要
IBM Watson Text to Speechは、IBMのWatsonがクラウド上でAPIとして提供する音声合成システムです。英語、日本語、中国語など多くの言語に対応しています。有料の契約をすればカスタマイズ機能を利用でき、特定の発音を制御させることができます1。
Node.js版(ソースアプリケーション)はGithubで公開されています。利用にはIBM Cloudの無料アカウントが必要です。
github.com
逆に、音声からテキストに起こしたい場合はこちら。 tkg5th.hatenablog.com
使い方
- デモサイトを開く。

「Voice Selection」から言語と話者を選択する。基本的に「V3(enhanced dnn)」の話者を選択する。現在、日本語は女性話者にのみ対応している。
「Text」の枠内に、音声にしたいテキストを入力する。声の強弱・速度・間隔を設けたい場合は「SSML2」にSSML形式でテキストを入力する。
「Speak」を押すと音声が流れ始める。音声ファイルをダウンロードしたい場合はシークバー右の「︙(縦三点リーダー)」をクリックし、「ダウンロード」を選択する。「︙」が表示されない場合は、シークバーを右クリックして「名前を付けてオーディオを保存」を選択する。