中文摘要 |
在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。大多數的自動語音辨識系統,都希望能在排除環境干擾的情況下進行辨識;但是在現實環境中,自動語音辨識卻往往因為測試環境與訓練環境不匹配(Mismatch),使得系統之效能有衰退的現象。而造成上述環境不匹配問題的因素包含有:語者腔調變異、加成性背景雜訊、摺積性通道雜訊及其他語者發音的干擾等變因。所謂的語音辨識之強健性技術,即是致力於降低上述各因素所帶來之影響,進而使得語音辨識系統在環境不匹配的情況下,仍然能保有一定的辨識能力。本論文旨在研究語音強健性技術,希望能夠透過語音特徵在調變頻譜(Modulation Spectrum)領域的處理來萃取出較具有強健性的語音特徵,因為前人研究指出調變頻譜之較低頻譜成分(約1Hz至16Hz)對於語音辨識精確度也有密切的關係,潛藏了最重要的語意資訊。 |