在自動語音辨識技術的發展上,語音強健性長久以來都是相當重要的研究領域。近年來以調變頻譜的處理和正規化進行強健性語音辨識,已然成為一項活躍的研究議題。調變頻譜統計圖等化法(SHE)是其中一種相當有效的技術,可用以補償調變頻譜因環境干擾而產生的非線性扭曲。在過去研究中,我們改善了調變頻譜統計圖等化法,使其運算複雜度和所需的儲存空間下降,並稱之為多項式擬合調變頻譜統計圖等化法(PSHE);在此論文中,我們嘗試進一步改進此方法,結合前人的研究中將語音特徵在時域與空間域作分頻的概念,對於語音特徵的高低頻成份分別進行PSHE處理並將之結合,嘗試解除原本SHE和PSHE所依據的語音特徵維度必須獨立和相鄰音框語音特徵無關的兩個假設,將時域與空間域上的文脈資訊列入考慮。本論文的實驗採用Aurora-2語料庫進行自動語音辨識實驗;經一系列實驗結果顯示本論文所提出的方法是有實際成效的,能夠顯著地提升語音辨識率。 |