https://tkg5th.hatenablog.com/entry/2019/10/13/000000

　多言語対応のテープ起こしサイト｢IBM Watson Text to Speech｣を紹介します｡

概要

IBM Watson Text to Speechは、IBMのWatsonがクラウド上でAPIとして提供する音声合成システムです。英語、日本語、中国語など多くの言語に対応しています。有料の契約をすればカスタマイズ機能を利用でき、特定の発音を制御させることができます¹。
　Node.js版（ソースアプリケーション）はGithubで公開されています。利用にはIBM Cloudの無料アカウントが必要です。 github.com

　逆に、音声からテキストに起こしたい場合はこちら。 tkg5th.hatenablog.com

使い方

デモサイトを開く。
「Voice Selection」から言語と話者を選択する。基本的に「V3（enhanced dnn）」の話者を選択する。現在、日本語は女性話者にのみ対応している。
「Text」の枠内に、音声にしたいテキストを入力する。声の強弱･速度･間隔を設けたい場合は「SSML²」にSSML形式でテキストを入力する。
「Speak」を押すと音声が流れ始める。音声ファイルをダウンロードしたい場合はシークバー右の「︙（縦三点リーダー）」をクリックし、「ダウンロード」を選択する。「︙」が表示されない場合は、シークバーを右クリックして「名前を付けてオーディオを保存」を選択する。

お値段はこちら ↩
利用できるSSML（音声合成マークアップ言語）要素についてはこちら。↩