聲學特征的提取與選擇是語音識別的一個重要環節。聲學特征的提取既是一個信息大幅度壓縮的過程,也是一個信號解卷過程,目的是使模式劃分器能更好地劃分。由于語音信號的時變特性,特征提取必須在一小段語音信號上進行,也即進行短時分析。這一段被認為是平穩的分析區間稱之為幀,幀與幀之間的偏移通常取幀長的1/2或1/3。通常要對信號進行預加重以提升高頻,對信號加窗以避免短時語音段邊緣的影響。
LPC
線性預測分析從人的發聲機理入手,通過對聲道的短管級聯模型的研究,認為系統的傳遞函數符合全極點數字濾波器的形式,從而n 時刻的信號可以用前若干時刻的信號的線性組合來估計。通過使實際語音的采樣值和線性預測采樣值之間達到均方差最小LMS,即可得到線性預測系數LPC。對 LPC的計算方法有自相關法(德賓Durbin法)、協方差法、格型法等等。計算上的快速有效保證了這一聲學特征的廣泛使用。與LPC這種預測參數模型類似的聲學特征還有線譜對LSP、反射系數等等。
CEP
利用同態處理方法,對語音信號求離散傅立葉變換DFT后取對數,再求反變換iDFT就可得到倒譜系數。對LPC倒譜(LPCCEP),在獲得濾波器的線性預測系數后,可以用一個遞推公式計算得出。實驗表明,使用倒譜可以提高特征參數的穩定性。
Mel
不同于LPC等通過對人的發聲機理的研究而得到的聲學特征,Mel倒譜系數MFCC和感知線性預測 PLP是受人的聽覺系統研究成果推動而導出的聲學特征。對人的聽覺機理的研究發現,當兩個頻率相近的音調同時發出時,人只能聽到一個音調。臨界帶寬指的就是這樣一種令人的主觀感覺發生突變的帶寬邊界,當兩個音調的頻率差小于臨界帶寬時,人就會把兩個音調聽成一個,這稱之為屏蔽效應。Mel刻度是對這一臨界帶寬的度量方法之一。
MFCC
首先用FFT將時域信號轉化成頻域,之后對其對數能量譜用依照Mel刻度分布的三角濾波器組進行卷積,最后對各個濾波器的輸出構成的向量進行離散余弦變換DCT,取前N個系數。PLP仍用德賓法去計算LPC參數,但在計算自相關參數時用的也是對聽覺激勵的對數能量譜進行DCT的方法。
![]()