https://ryuichi1208.hateblo.jp/entry/2025/08/10/000000

概要

私たちが普段から扱っている「音声ファイル」。音楽、ポッドキャスト、会議録音、そして音声認識の前処理など、さまざまな場面で利用されています。しかし「MP3とWAVって何が違うの？」「サンプリングレートって何？」と聞かれると、意外と答えに困る人も多いはずです。

この記事では、音声ファイルの基礎知識から代表的なフォーマットの特徴、そして実務で注意すべきポイントまでを入門向けに整理して解説します。

音声ファイルは大きく以下の要素から構成されています。

サンプリングレート (Sampling Rate)
- 音声を1秒間に何回デジタル化するかを示す数値（単位は Hz）。
  - CD音質：44.1kHz（44,100回/秒）
  - 電話音質：8kHz（8,000回/秒）

数値が高いほど高音まで記録でき、音質が良くなりますが、ファイルサイズは大きくなります。

値が大きいほど音のダイナミックレンジ（音の小ささから大きさまでの幅）を表現できます。

音楽や動画ではステレオが一般的ですが、音声認識ではモノラルが使われることが多いです。

WAV (Waveform Audio File Format)
- 特徴：非圧縮（リニアPCM形式が多い）、高音質
- 用途：音声編集、解析、音声認識の入力データ
- メリット：劣化がない
- デメリット：ファイルサイズが非常に大きい
MP3 (MPEG-1 Audio Layer 3)
- 特徴：圧縮形式（不可逆圧縮）
- 用途：音楽配信、ポッドキャスト
- メリット：ファイルサイズが小さい
- デメリット：高圧縮では音質が劣化、解析や音声認識には不向き
AAC (Advanced Audio Coding)
- 特徴：MP3よりも効率の良い圧縮方式
- 用途：YouTube、Apple Music、iTunes など
- メリット：低ビットレートでも音質が良い
- デメリット：特定の環境では再生に制限あり
FLAC (Free Lossless Audio Codec)
- 特徴：可逆圧縮（音質劣化なし）
- 用途：ハイレゾ音源、音楽保存
- メリット：音質を保ちつつサイズ削減
- デメリット：WAVよりは小さいがMP3ほど小さくはならない