以下の内容はhttps://ja.algonote.com/entry/icassp2019jpより取得しました。


ICASSP2019音声&音響論文読み会メモ #icassp2019jp

ICASSP2019音声&音響論文読み会に参加しました。

ICASSPの概要と音声合成・声質変換における最新動向

ICASSP2019 音声&音響読み会 テーマ発表音声生成 from Kentaro Tachibana

今年のICASSPはイギリスで行われた。発表状況はUS, Chinaに続き日本は3番。

音声生成だとWaveNetの高速化が多かった。音声変換ではone-to-oneの品質があがっているが、1000文使用している。

ENHANCING HYBRID SELF-ATTENTION STRUCTURE WITH RELATIVE-POSITION-AWARE BIAS FOR SPEECH SYNTHESIS

ICASSP2019音声&音響論文読み会 論文紹介(合成系) #icassp2019jp from Tomoki Koriyama

seq-to-seq+attentionをするためにRelative-position-aware biasを導入。Self-attentionでは位置情報を定義上持っていないため従来はposition encodingを使用していた。

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS

docs.google.com

手法を比較する際にサンプリング周波数が異なると比較できない。sin波を反転してもメルスペクトログラムは同じであり、逆変換は難しい。

逆関数を持つNeural Netを使うのがWaveGlowの特徴。例えば普通のニューラルネットはReLUを使うと逆変換できない。

ICASSP2019における音声認識の最新技術動向

ICASSP2019音声&音響論文読み会 「ICASSP2019における音声認識の最新技術動向」#yjtc #icassp2019jp from Yahoo!デベロッパーネットワーク

DNN-HMM音声認識では音響モデルと言語モデルが別々に用意されている。RNN TransducerはCTCの中間層の入力に1つ前の予測ラベルが追加。

Deep KWS: 1 stageはclientで2値分類、2 stage目はサーバーで分類

STREAMING END-TO-END SPEECH RECOGNITION FOR MOBILE DEVICES

ICASSP2019音声&音響論文読み会 論文紹介(認識系) from 貴史 益子

Googleの著者20名の論文。All-NeuralのEnd-to-End音声認識を実用性能でスマホ上で動作させた。

RNN-Transducerはストリーム処理ができ、Predictionも使う。LSTMにProjectionを追加、stateのcaching、量子化などでパフォーマンス改善。

ICASSP 2019での音響信号処理分野の世界動向

ICASSP 2019での音響信号処理分野の世界動向 from Yuma Koizumi

  • 音源分離・強調
    線形フィルタリング: マイクへの到達時間の差を使う
    wsj0-mix: 音源分離のデータセット
    Voice Bank + Demand: 音源強調のデータセット

  • 音環境理解
    簡単なbaselineは公開されている。ラベル付けが難しい。

THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION

ICASSP2019論文読み会_PHASEBOOK from Atsushi_Ando

  • Deep Clustering: バイナリマスク推定
  • Chimera++ Network: DC + 目的音源の誤差
  • PhaseNet:: 位相推定を量子化された位相のクラス分類問題とみなす
  • Phasebook: PhaseNet+量子化位相の重み付け和

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION from RyoAIHARA1

BLSTM=>LSTMで精度大幅劣化するためLatency-controlled BLSTMで遅延時間削減、Teacher-student学習で分離精度劣化低減

TIME-FREQUENCY-BIN-WISE SWITCHING OF MINIMUM VARIANCE DISTORTIONLESS RESPONSE BEAMFORMER FOR UNDERDETERMINED SITUATIONS

ICASSP2019 音声&音響論文読み会 著者紹介2 (信号処理系2) from KoueiYamaoka

  • 劣決定問題: マイク数が音源数より少ない DUET
  • 決定: IRLMA, ICA
  • 優決定: OverIVA

時間周波数スイッチングビームフォーマ: 複数のビームフォーマを用意して切り替える。それを同時最適化問題として再定式化した。

所感

音声特化の勉強会めずらしいのでありがたい。

テーマごとに発表がグルーピングされており、最初に概要説明があるスタイルで初心者キラー感が薄くてよかった。




以上の内容はhttps://ja.algonote.com/entry/icassp2019jpより取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14