概要
私たちが普段から扱っている「音声ファイル」。音楽、ポッドキャスト、会議録音、そして音声認識の前処理など、さまざまな場面で利用されています。 しかし「MP3とWAVって何が違うの?」「サンプリングレートって何?」と聞かれると、意外と答えに困る人も多いはずです。
この記事では、音声ファイルの基礎知識から代表的なフォーマットの特徴、そして実務で注意すべきポイントまでを入門向けに整理して解説します。
音声ファイルの基本構造
音声ファイルは大きく以下の要素から構成されています。
- サンプリングレート (Sampling Rate)
- 音声を1秒間に何回デジタル化するかを示す数値(単位は Hz)。
- CD音質:44.1kHz(44,100回/秒)
- 電話音質:8kHz(8,000回/秒)
- 音声を1秒間に何回デジタル化するかを示す数値(単位は Hz)。
数値が高いほど高音まで記録でき、音質が良くなりますが、ファイルサイズは大きくなります。
- ビット深度 (Bit Depth)
- 1サンプルあたり何ビットで表現するか。
- 16bit(CD音質)
- 24bit(ハイレゾ音質)
- 1サンプルあたり何ビットで表現するか。
値が大きいほど音のダイナミックレンジ(音の小ささから大きさまでの幅)を表現できます。
- チャンネル数 (Channels)
- モノラル(1ch)
- ステレオ(2ch)
音楽や動画ではステレオが一般的ですが、音声認識ではモノラルが使われることが多いです。