https://www.youtube.com/results?search_query=aqua+voice
最近、評判が高くあちこちで話題になっているから調べてみました。
自分で試したところ、確かに他の音声認識ソフトよりも段違いに認識率が高いという印象。ただし相性があるかもしれないので、まずは試すことを推奨。

1. 概要
Aqua Voice(旧称 withaqua.com)は、2023年にハーバード大学出身のFinnian Brown(CEO)とJack McIntire(CTO)によって設立された、サンフランシスコ拠点のAIスタートアップ企業です。同社は、従来の「文字起こしツール」の枠を超え、キーボードに代わる第一級の入力インターフェースとしての音声AIエディタを開発・提供しています。Y Combinatorの2024年冬バッチ(W24)に採択され、Pioneer Fund等から約275万ドルの資金を調達しています。
注意: 同名のサイバーセキュリティ企業「Aqua Security」や投資プラットフォーム「Aqua」とは異なる法人です。
2. 技術的特徴:独自モデル「Avalon」
Aqua Voiceの核心は、OpenAIのWhisperなどの既存APIを単に利用するのではなく、「Avalon」と呼ばれる独自の音声認識モデルを自社開発している点にあります。
-
MoE(Mixture of Experts)アーキテクチャ:
AvalonはMoEアーキテクチャを採用しており、入力された音声の文脈に応じて最適な「専門家」モデルが処理を行います。これにより、クラウドベースでありながら50ms以下の起動速度と、発話から約450msでのテキスト挿入という、思考を妨げない低遅延を実現しています。
-
人間とコンピュータの対話(HCI)への最適化:
一般的なモデルが苦手とする「git checkout dev」のようなコーディング用語や専門的なジャーゴン、言い淀みの修正において、業界最高水準の精度(テクニカルレポートでWER 1.0%)を誇ります。これにより、プログラマーやテクニカルライターからの支持を獲得しています。
3. 主な機能と利用環境
-
クロスプラットフォーム対応: MacおよびWindowsのデスクトップアプリとして提供され、VS Code、Cursor、Slack、Gmail、Notionなど、あらゆるアプリケーションのテキストフィールドへ直接入力が可能です。
-
多言語対応: 日本語を含む24以上の言語に対応しており、言語の自動検出機能も備えています。日本のユーザーからも、その自然な日本語認識能力が高く評価されています。
-
編集機能: 単に話した言葉を文字にするだけでなく、「Make that a bulleted list(箇条書きにして)」といった自然言語によるフォーマット指示も認識し、実行します。
4. 価格プラン
Aqua VoiceはSaaS(Software as a Service)モデルを採用しています。
| プラン | 価格(年払い換算) | 概要 |
| Starter | 無料 | 月間1,000語まで。お試し利用向け。 |
| Pro | $8 /月 | 無制限の音声入力、Avalonモデルのフル機能、カスタム辞書(800語)。最も一般的なプラン。 |
| Team | $12 /月 | Proの全機能に加え、チーム一括請求、組織全体でのプライバシーモード強制などが可能。 |
5. 市場評価と競合優位性
Aqua Voiceは、2025年にHacker Newsで1位を獲得するなど、特に開発者コミュニティで高い注目を集めました。
-
対 MacWhisper: MacWhisperが「ローカル処理・プライバシー・買い切り」を強みとするのに対し、Aqua Voiceは「クラウドの計算資源を使った圧倒的な速度と文脈理解」を強みとしています。
-
対 Wispr Flow: Wispr FlowがSOC2/HIPAA準拠などのエンタープライズ管理機能を重視する一方、Aqua Voiceは個人の生産性、特に「Vibe Coding(声による直感的なコーディング)」の体験において差別化を図っています。
6. セキュリティとプライバシー
クラウド処理を前提としていますが、「Privacy Mode」を有効にすることで、音声データや転写テキストをサーバーに保存せず、AIの学習にも使用しない「ゼロ・リテンション」ポリシーを選択可能です。これにより、機密性を保持しつつ、最新のAIモデルの恩恵を受けることができます。
7.実際の使用感と口コミ:国内外のユーザーが受けた衝撃
Aqua Voiceを実際に手にしたユーザーたちの多くは、その体験を「魔法のようだ」と表現しています。日本国内でも、感度の高いアーリーアダプターの間で大きな話題となっています。ここでは、様々な視点からの口コミをご紹介します。
1. 日本人ユーザーによる評価
日本のユーザーからは、日本語の変換精度の高さに驚きの声が上がっています。
-
執筆のパラダイムシフト:これまで音声入力は誤変換が多くて使いにくいと思っていたが、Aqua Voiceを使い始めてから概念が完全に変わったという声が多いです
。早口で話しても、雑談のような適当な話し方でも正確に文字起こしができる点が高く評価されています。 -
タイピングの苦痛からの解放:手が疲れやすいライターや、大量のチャット返信に追われる経営者からは、3分の1から5分の1の時間で作業が終わるようになったという具体的なメリットが報告されています
。 -
思考の純度が高まる:キーボードを叩くという物理的な作業に脳のリソースを割かなくて済むため、頭の中に浮かんだニュアンスを妥協せずに言葉にできるようになったという意見も印象的です
。
2. エンジニアやパワーユーザーからの支持
特に技術職のユーザーからは、その圧倒的なパフォーマンスが支持されています。
-
Vibe Coding(バイブ・コーディング)の相棒:近年注目されている、AIに指示を出してアプリを構築する開発手法において、Aqua Voiceは欠かせないツールとなっています
。画面上のコードを理解しながら指示を出せるため、開発のスピードが飛躍的に向上します。 -
競合ツールとの比較:SuperwhisperやWispr Flowといった他の人気ツールと比較しても、起動の速さやアプリへの統合の滑らかさにおいて、Aqua Voiceの方が上だと感じるユーザーが多いようです
。
3. アクセシビリティの向上
身体的な理由でキーボード操作が困難な方々にとっても、Aqua Voiceは革命的なツールとなっています。
-
障害を持つユーザーの体験:長年Dragon Dictateを使用していたユーザーが、Aqua Voiceの方が予測しやすく、リーズナブルで、使い心地が素晴らしいと絶賛しています
。 -
疲労の軽減:従来の音声入力では修正作業に多大なエネルギーを費やしていましたが、Aqua Voiceではその必要がほとんどなく、認知的な負荷が劇的に減ったというフィードバックがあります
。
以下の表は、ユーザーからの肯定的な評価と、今後の改善が期待されるポイントを対比させたものです。
| ユーザーが評価している点 | 今後の改善・要望 |
|
99%を超える圧倒的な認識精度 |
iOS/Androidアプリのリリース熱望 |
|
話す速度に追いつく低レイテンシ |
オフラインでの処理機能 |
|
画面情報を読み取るDeep Context |
Linux版への対応 |
|
自然言語で指示できるカスタム指示 |
3分以上の連続発話時の安定性向上 |
| 特徴 | Aqua Voice | Wispr Flow | MacWhisper | Superwhisper |
| コア技術 | 独自モデル (Avalon) / クラウド | GPTラップ / クラウド | Whisper (cpp) / ローカル | Whisper / ローカル & クラウド |
| 主要ターゲット | 開発者、ライター、思考の速さを求める層 | エンタープライズ、チーム、医療・法務 | プライバシー重視層、研究者 | 一般Macユーザー |
| 強み | 速度 (450ms)、コーディング用語、修正機能 | 共有辞書、SOC2/HIPAA準拠、クロスプラットフォーム | 完全ローカル処理、買い切りモデル | UIの洗練度、カスタマイズ性 |
| 弱点 | オフライン不可、サブスクリプション必須 | 汎用LLM依存の可能性 | リアルタイム性の限界(モデルサイズによる) | 大規模モデル利用時のコスト |
| 価格モデル | サブスクリプション ($8/mo~) | サブスクリプション (Enterpriseあり) | 買い切り (One-time fee) あり | サブスクリプション / 買い切り |