本論文主要研究於強健性語音辨認上,我們提出聯合語者、雜訊環境與語音內容因素分析(Joint Speaker and Noisy Environment and Speech Content Factor Analysis;JSEC),主要是透過聯合因素分析,在特徵空間做即時語音辨認模型補償(online recognition model compensation),使得調適出來的模型與測試環境能夠盡量匹配,進而提升辨識效果。此外,我們先將JSEC分解成語音和非語音二個模型做模型調適、估算影響因素,接著每個模型再利用階層式的概念,語音特性考慮之因素分成雜訊環境特徵空間、語者特徵空間、說話內容特徵空間與獨特因素空間分別估算,非語音特性考慮之因素則分成雜訊特徵空間和獨特因素空間分別估算,最後再把語音和非語音組合回辨認用的模型,用此方式來降低我們的參數量。我們使用Aurora2語料庫做實驗,在複合情境的訓練模式下,我們得到最佳的辨識錯誤率為4.37%,比傳統強健性參數求取方法MVA(Mean subtraction,Variance normalization,and ARMA filtering)的錯誤率4.99%低了許多,也比我們先前提出的JSE(Joint Speaker and Noisy Environment Factor Analysis)方法的錯誤率相當甚至好一點。除了辨認率之外,我們提出的方法也能使得調適模型的參數量大幅下降,JSEC參數量約為傳統MVA的4倍,也比JSE方法少了十分之一的參數量,因此為更有效率的調適方法。 |