https://kamedo2.hatenablog.jp/entry/2025/05/17/173022

概要

AAC系のプロプライエタリなコーデックで一般的なAAC-LCよりもHE-AACv2よりも新しい2012年の規格である音声コーデックのxHE-AACと、2000年策定のフリーな音声コーデックであるOgg Vorbisを、約134kbpsで音質を比較した。
また、フランスのエンジニアでありFFmpegの創始者であるFabrice Bellard氏が開発した、極めて低レートに音楽を圧縮できるAI利用の新しいコーデック、TSACを、利用できる最大のビットレートの約7.5kbpsで、上記のコーデックと比較した。

結果

134kbps前後でテストしたxHE-AACエンコーダのexhaleと、Ogg VorbisエンコーダのaoTuVは共に、平均オピニオン評点が4点を超える高評価となり、原音を忠実に再現した。
AI利用のTSACは、7.5kbpsと極めて低いビットレートしか使わずに、平均オピニオン評点1.79点を得た。

評価

xHE-AAC, Ogg Vorbis, AI利用の音声コーデックTSACの比較(ビットレートを等しくした比較ではなく、TSACは約1/18のレートしか使用していない)

xHE-AAC, Ogg Vorbis, AI利用の音声コーデックTSACの比較(xHE-AACとOgg Vorbisが134kbps前後、TSACが7.5kbps前後) テストに使われた15音源と評点一覧

テストに利用した音源を試聴したい方、ダウンロードしたい方、ログを見たい方はこちらへ。
http://zak.s206.xrea.com/bitratetest/main.htm

方法

銘柄に対する先入観が影響しないように、PSP ABC/HR v2.4とAKG K712を利用して、4個のエンコードされた圧縮音源をランダムに並び替えて、銘柄を伏せて採点した。採点基準は、「音質劣化が非常に気になる」が1点「気になる」が2点「わずかに気になる」が3点「原音からの音質変化が分かるが、気にならない」が4点「音質変化がわからない、区別できない」が5点。4.9点以下の評点をつける場合は、ABXYテストを15回行い、12回以上(これ以上の成績をまぐれで出す確率は約2%)正解して、違いを聞き取れることを確認してからそうした。15種の多様なジャンルを含むテスト用の非圧縮音源が使われた。このテストでの採点は、15(音源)×4(エンコーダ)×1(回)=60(回)。

使用したエンコードオプションとデコードオプション

xHE-AAC

ドイツの動画・音声技術者であるChristian R. Helmrich氏が開発したエンコーダである、exhale(Ecodis eXtended High-efficiency And Low-complexity Encoder)を使用した。バイナリはRareWaresからダウンロードしたexhale-V1.1.9-00423757_x64, exhale-v1.2.1_x64、これらの2バージョンが使われた。
exhale-v1.2.1_x64はテスト開始当時としては最新だったが、今(2025年5月現在)は新しいバージョンが公開されている。

exhale-V1.1.9-00423757_x64\exhale 5 原音.wav 出力.mp4
ffmpeg109823 -c:a libfdk_aac -i 出力.mp4 -c:a pcm_f32le 出力.wav

exhale-v1.2.1_x64\exhale 5 原音.wav 出力.mp4
ffmpeg109823 -c:a libfdk_aac -i 出力.mp4 -c:a pcm_f32le 出力.wav

Ogg Vorbis

日本人の蒼弓氏が開発しているOgg Vorbisエンコーダ、aoTuVが使われた。2020年最新のバージョンであるBeta6.03が使われた。

aoTuV_b6.03_2020\venc64 -q3.7 原音.wav 出力.ogg
oggdecV1.10.1\oggdec -b 5 出力.ogg --wavout 出力.wav

TSAC

フランスの技術者である、Fabrice Bellard氏の開発した非可逆音声コーデック、TSAC: Very Low Bitrate Audio Compressionが使われた。
使用したバイナリは、tsac-2024-04-08-win64.zip。2025年現在では細かい不具合を解消した2024-05-08バージョンがリリースされている。
dac_stereo_q8.binとtsac_stereo_q8.binはモデルファイルで、約83MBと48MB。配布されたモデルがそのまま使われた。

tsac-2024-04-08-win64\tsac -v -m tsac-2024-04-08-win64\dac_stereo_q8.bin -M tsac-2024-04-08-win64\tsac_stereo_q8.bin -q 12 c 原音.wav 出力.tsac
tsac-2024-04-08-win64\tsac -v -m tsac-2024-04-08-win64\dac_stereo_q8.bin -M tsac-2024-04-08-win64\tsac_stereo_q8.bin d 出力.tsac 出力.wav

詳細な優劣の分析

FRIEDMAN version 1.24 (Jan 17, 2002) http://ff123.net/
Blocked ANOVA analysis

Number of listeners: 15
Critical significance:  0.05
Significance of data: 0.00E+000 (highly significant)
---------------------------------------------------------------
ANOVA Table for Randomized Block Designs Using Ratings

Source of         Degrees     Sum of    Mean
variation         of Freedom  squares   Square    F      p

Total               59          86.42
Testers (blocks)    14           1.00
Codecs eval'd        3          83.62   27.87   651.96  0.00E+000
Error               42           1.80    0.04
---------------------------------------------------------------
Fisher's protected LSD for ANOVA:   0.152

Means:

exh119   exh121   ogg128   tsac12  
  4.56     4.55     4.45     1.79  

---------------------------- p-value Matrix ---------------------------

         exh121   ogg128   tsac12  
exh119   0.861    0.141    0.000*  
exh121            0.193    0.000*  
ogg128                     0.000*  
-----------------------------------------------------------------------

exh119 is better than tsac12
exh121 is better than tsac12
ogg128 is better than tsac12

整形済みデータ

exhale v1.1.9	exhale v1.2.1	aoTuV beta6.03	tsac-2024-04-08-win64
%feature	3	xHE-AAC	xHE-AAC	Ogg Vorbis	TSAC: Very Low Bitrate Audio Compression
%feature	10	test tracks avg/albums avg	test tracks avg/albums avg 	test tracks avg/albums avg	test tracks avg/albums avg
%feature	11	138.7kbps/130.4kbps	139.0kbps/129.6kbps	143.2kbps/126.1kbps	7.4kbps/7.5kbps
%feature	12	exhale 5 in.wav out.mp4	exhale 5 in.wav out.mp4	venc64 -q3.7 in.wav out.ogg	tsac -v -q 12 c in.wav out.tsac
5.000	4.500	4.400	2.300	
4.400	4.500	5.000	1.700	
5.000	5.000	4.300	1.900	
4.800	4.600	4.400	1.900	
4.400	4.600	4.800	1.800	
4.500	4.600	4.700	1.500	
4.600	4.700	4.300	2.100	
4.700	4.500	4.600	1.700	
4.500	4.400	4.700	1.700	
4.100	4.300	4.400	1.600	
4.400	4.500	4.200	1.500	
4.700	4.500	4.300	1.800	
4.500	4.700	4.300	1.700	
4.500	4.400	4.200	1.900	
4.300	4.400	4.100	1.800	
%samples	41_30sec	Perc.
%samples	finalfantasy	Strings
%samples	ATrain	Jazz
%samples	BigYellow	Pops
%samples	FloorEssence	Techno
%samples	macabre	Classic
%samples	mybloodrusts	Guitar
%samples	Quizas	Latin
%samples	VelvetRealm	Techno
%samples	Amefuribana	Pops
%samples	Trust	Gospel
%samples	Waiting	Rock
%samples	Experiencia	Latin
%samples	Heart to Heart	Pops
%samples	Tom's Diner	Acappella

注：公開試聴試験での多人数の平均評点と管理人の評点が似たような傾向になることは確認しているので言えるが、ある個人がある再生環境で、ある価値観のもとに聞いたときの評価が、ここに書いた管理人の評価に似るかどうかまでは何とも言えない。また、今回利用した音源とは傾向の異なる音を多くエンコードした場合、結果や順位が異なる可能性があります。