併合式倒頻譜統計正規化技術於強健性語音辨識之研究

何冠旻; 杜文祥; 洪志偉

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	併合式倒頻譜統計正規化技術於強健性語音辨識之研究
並列篇名	A Study of Hybrid-based Cepstral Statistics Normalization Techniques for Robust Speech Recognition
作者	何冠旻、杜文祥、洪志偉
中文摘要	一語音辨識系統，在雜訊干擾的環境下，其辨識效能通常會明顯下降，如何改善此問題，是歷年來許多語音處理領域之學者所研究的重點。本論文也是針對此問題，提出了幾種新的語音強健性技術，來降低雜訊的干擾，以提升語音辨識的效能。在本論文中，我們提出了新的語音特徵統計估測資訊演算法，藉此改進五種有名的強健性語音特徵正規化技術的效能，這些正規化技術包括了倒頻譜平均消去法（CMS）、倒頻譜平均值與變異數正規化法（CMVN）、高階倒頻譜動差正規化法（HOCMN）、倒頻譜增益正規化法（CGN）以及倒頻譜統計圖等化法（HEQ）等，這些技術皆被證明有效提升語音特徵之強健性。這些方法中的關鍵步驟之一，為特徵統計資訊的估測。在傳統上，有三種統計估測的演算法，分別為整句式、分段式與碼簿式演算法。在此論文中，我們討論這三種估測方式可能的優缺點，進而提出新的估測方式，稱作併合式統計估測演算法，其適當地組合碼簿式與整句式（或分段式）統計值估測法所求得的特徵統計資訊。在一系列之雜訊環境下的語音辨識實驗中，我們驗證了新提出的併合式統計估測法相對於傳統三種估測法而言，能夠更有效地改進上述五種語音特徵正規化技術的效能，而能得到更明顯的辨識精確率提昇。此外，我們所提出的併合碼簿與分段式的統計估測法具有近似線上運算的功能，因此更具有實際應用之價值。
英文摘要	Cepstral statistics normalization techniques have been shown to be very successful at improving the noise robustness of speech features. In this paper, we propose a hybrid-based scheme to achieve a more accurate estimate of the statistical information of features in these techniques. By properly integrating codebook and utterance/segment knowledge, the resulting hybrid-based normalization methods significantly outperform conventional utterance-based, segment-based and codebook-based ones in recognition accuracy. For the Aurora-2 clean-condition training task, the proposed hybrid codebook/segment-based histogram equalization (CS-HEQ) achieves an average recognition accuracy of 90.66%, which is better than utterance-based HEQ (87.62%), segment-based HEQ (85.92%) and codebook-based HEQ (85.29%). Furthermore, the high-performance CS-HEQ can be implemented with a short delay and can thus be applied in real-time online systems. A similar performance promotion can be also found in the methods of hybrid-based cepstral mean subtraction (CMS), cepstral mean and variance normalization (CMVN), cepstral gain normalization (CGN) and higher-order cepstral moment normalization (HOCMN).
起訖頁	265-278
關鍵詞	語音辨識、碼簿、特徵統計值估測法、強健性語音特徵參數、speech recognition、codebook、feature statistics estimate、robust speech features
刊名	ROCLING論文集
期數	2009 (2009期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	強健性語音辨識中基於小波轉換之分頻統計補償技術的研究
該期刊-下一篇	專利雙語語料之中、英對照詞自動擷取