中文摘要 |
絕大多數的自動語音辨識(Automatic Speech Recognition, ASR)系統常因為訓練與測試環境的不匹配而致使效能嚴重地下降。有鑒於此,語音強健性(Robustness)技術的發展長久以來一直是一個相當重要且熱門的研究領域。本論文之目的在於探索新穎的語音強健性技術,期望透過簡單且有效的語音特徵調變頻譜處理來擷取較具強健性的語音特徵。為達此目的,本論文使用非負矩陣分解(Nonnegative Matrix Factorization, NMF)以及一些改進方法來分解調變頻譜強度成分,以獲得較具強健性的語音特徵。本論文有下列幾項特色:(1)我們嘗試結合稀疏性的想法,冀望能夠獲取到較具調變頻譜局部性的資訊以及重疊較少的NMF基底向量表示;(2)藉助於局部不變性的概念,我們希望發音內容相似的語句之調變頻譜強度成分能在NMF空間有越相近的向量表示,以保留兩兩語句之間的關連程度;(3)在測試階段經由正規化NMF之編碼向量,更進一步提升語音特徵之強健性;(4)我們結合上述三種NMF的改進方法。本論文的所有實驗皆於國際通用的Aurora-2連續數字語音語料庫進行;一系列的實驗結果顯示出,相較於僅使用梅爾倒頻譜特徵(Mel-frequency Cepstral Coefficients, MFCC)之基礎系統,我們所提出的新穎語音強健性技術能夠顯著地增進語音辨識效能,最終獲得63.18%的相對詞錯誤率降低。 |