中文摘要 |
近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方法有:倒頻譜平均值與變異數正規化法(cepstral mean and variance normalization, CMVN)、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)、倒頻譜平均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-regressive-moving average filtering, MVA)等;第二類別之方法,則藉由少量的應用環境語料或雜訊,來對原始的語音模型中的統計參數作調整,降低模型之訓練環境與應用環境之不匹配的情況。較有名的語音模型調適技術包含了:最大後機率法則調適法(maximum a posteriori adaptation, MAP)、平行模型合併法(parallel model combination, PMC)、向量泰勒級數轉換(vector Taylor series transform, VTS)等。本論文較集中討論與發展的是上述的第一類方法,我們提出一套作用於倒頻譜時間序列域的強健性技術,稱作線性估測編碼濾波法(linear prediction coding-based filtering, LPCF),此方法主要是應用線性估測(linear prediction)的原理,來擷取語音特徵隨著時間變化的特性、進而凸顯語音的成分、抑制雜訊的成分。 |