https://ja.algonote.com/entry/icassp2019jp

ICASSPの概要と音声合成・声質変換における最新動向

ICASSP2019 音声＆音響読み会テーマ発表音声生成 from Kentaro Tachibana

今年のICASSPはイギリスで行われた。発表状況はUS, Chinaに続き日本は3番。

音声生成だとWaveNetの高速化が多かった。音声変換ではone-to-oneの品質があがっているが、1000文使用している。

ICASSP2019音声＆音響論文読み会論文紹介（合成系） #icassp2019jp from Tomoki Koriyama

seq-to-seq+attentionをするためにRelative-position-aware biasを導入。Self-attentionでは位置情報を定義上持っていないため従来はposition encodingを使用していた。

手法を比較する際にサンプリング周波数が異なると比較できない。sin波を反転してもメルスペクトログラムは同じであり、逆変換は難しい。

逆関数を持つNeural Netを使うのがWaveGlowの特徴。例えば普通のニューラルネットはReLUを使うと逆変換できない。

ICASSP2019音声＆音響論文読み会「ICASSP2019における音声認識の最新技術動向」#yjtc #icassp2019jp from Yahoo!デベロッパーネットワーク

DNN-HMM音声認識では音響モデルと言語モデルが別々に用意されている。RNN TransducerはCTCの中間層の入力に1つ前の予測ラベルが追加。

Deep KWS: 1 stageはclientで2値分類、2 stage目はサーバーで分類

ICASSP2019音声＆音響論文読み会論文紹介（認識系） from 貴史益子

Googleの著者20名の論文。All-NeuralのEnd-to-End音声認識を実用性能でスマホ上で動作させた。

RNN-Transducerはストリーム処理ができ、Predictionも使う。LSTMにProjectionを追加、stateのcaching、量子化などでパフォーマンス改善。

ICASSP 2019での音響信号処理分野の世界動向 from Yuma Koizumi

音源分離・強調
線形フィルタリング: マイクへの到達時間の差を使う
wsj0-mix: 音源分離のデータセット
Voice Bank + Demand: 音源強調のデータセット
音環境理解
簡単なbaselineは公開されている。ラベル付けが難しい。

ICASSP2019論文読み会_PHASEBOOK from Atsushi_Ando

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION from RyoAIHARA1

BLSTM=>LSTMで精度大幅劣化するためLatency-controlled BLSTMで遅延時間削減、Teacher-student学習で分離精度劣化低減

ICASSP2019 音声＆音響論文読み会著者紹介2 （信号処理系2） from KoueiYamaoka

時間周波数スイッチングビームフォーマ: 複数のビームフォーマを用意して切り替える。それを同時最適化問題として再定式化した。

音声特化の勉強会めずらしいのでありがたい。

テーマごとに発表がグルーピングされており、最初に概要説明があるスタイルで初心者キラー感が薄くてよかった。