出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/02/19 12:35 UTC 版)
PSOLAを採用した音声処理ではスペクトル包絡/フォルマントを保ったまま音高や持続時間(テンポ)を変更できる。
PSOLAは次の3つの段階からなる[3]。
分析では、対象の音声波形がもつ周期(ピッチ)と同期した分析窓を用い[6]、互いにオーバーラップした短い断片/区間(基本周期の2倍程度[6])に分割する。
変換例として、信号のピッチを下げるには断片を互いに遠ざけ、ピッチを上げるには互いに近付けて断片を再配置する。断片を離す/重ねる結果として信号長/持続時間が変化するため、次の補正を行う[6]。信号の持続時間を長くするには 引き続き同じ断片を複数回繰り返し、短くするには いずれかの断片を間引きする。
変換された断片は重畳加算で結合され信号が再合成される。
PSOLAを採用しかつ操作が時間領域でおこなわれるアルゴリズムはTD-PSOLAと総称され、また周波数領域でおこなわれるアルゴリズムはFD-PSOLAと総称される[7]。
PSOLAは様々な目的で利用される。以下はその一例である:
a pitch-synchronous overlap-add (PSOLA) approach ... In this paper, we first present the common PSOLA framework(Moulines 1990, pp. 453–454)
The PSOLA synthesis scheme involves the three following steps: an analysis of the original speech waveform ... modifications brought to this intermediate representation ... the synthesis of the modified signal from the modified intermediate representation(Moulines 1990, p. 454)
consists of a sequence of short-term signalsカテゴリ