https://redhologerbera.hatenablog.com/entry/2025/02/14/235654

本日はAI枠です。

近年AI技術が日進月歩で進んでおり、日々新しいサービスや技術が登場しています。

今回は筆者が気になっていたTextToSpeechの新型AIサービスZyphraを見ていきます。

Zypharaはカリフォルニア州パロアルトに拠点を置くAIをメインとした企業のようです。

MaiaOSと呼ばれるToBのマルチモーダルエージェントシステムを開発しています。

今回2月10日にZonos-v0.1という新型のTextToSpeechのモデルを公開しています。

TextToSpeechとはテキスト（文字）から音声に変換する技術を指し、簡単に表現すると文字お越しです。

Zonos-v0.1はゼロショットと呼ばれる事前学習が不要であることが特徴として挙げられ、120秒以内の音源をアップロードしてプロンプトを入力して、実行するだけで表情のこもった自然な音声が返されます。

　この音声は現時点で英語、日本語、ドイツ語、韓国語、フランス語、標準中国語に対応しており、クロスリンガルも対応しています。

　Zonos-v0.1を使用するためのはサインアップが必要です。Googleアカウントなどを使用することができます。

　また、100分までの生成は無料で行うことができます。

　加えて100分をオーバーしても0.02ドル(3円ほど)/分でクレジットを追加することができます。

　無料プランのほかにつき5ドルで300分まで生成できるプランもあります。

　またAPIキーを発行して自分のアプリケーションの組み込むこともできるようです。　これはChatGPTなどとの親和性が高そうです。

　なお今回ははてなブログの都合で音源のみを添付することが難しいため、実際の結果は抜きにして手順のみを紹介します。

①プレイグラウンドを開きます。

②画像赤枠部の高億を選択します。

ここで音源を選択できます。

なおYourVoicesにはアップロードした独自の音源が設定できます。

Uploadタブからmp3ファイルやwavファイルをアップロードしてそのまま使用することができます。

ゼロショットの利点として事前学習が不要な点がとても良い点です。

③Generateボタンを押すことで生成が開始されます。

生成時間は10秒から30秒といったところで他のサービスより若干遅い気もしますが、クオリティは類を見ないほど高いと感じました。

日本語のイントネーションや固有名詞などを発話する際に破断が目立ちました。

この辺りは今後のモデルのバージョンアップに期待します。

本日は以上です。