調變頻譜分解之改良於強健性語音辨識

張庭豪; 洪孝宗; 陳柏琳; 陳冠宇; 王新民

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	調變頻譜分解之改良於強健性語音辨識
並列篇名	Several Refinements of Modulation Spectrum Factorization for Robust Speech Recognition
作者	張庭豪、洪孝宗、陳柏琳、陳冠宇 (Guan-Yu Chen)、王新民
中文摘要	絕大多數的自動語音辨識（Automatic Speech Recognition, ASR）系統常因為訓練與測試環境的不匹配而致使效能嚴重地下降。有鑒於此，語音強健性（Robustness）技術的發展長久以來一直是一個相當重要且熱門的研究領域。本論文之目的在於探索新穎的語音強健性技術，期望透過簡單且有效的語音特徵調變頻譜處理來擷取較具強健性的語音特徵。為達此目的，本論文使用非負矩陣分解（Nonnegative Matrix Factorization, NMF）以及一些改進方法來分解調變頻譜強度成分，以獲得較具強健性的語音特徵。本論文有下列幾項特色：（1）我們嘗試結合稀疏性的想法，冀望能夠獲取到較具調變頻譜局部性的資訊以及重疊較少的NMF基底向量表示；（2）藉助於局部不變性的概念，我們希望發音內容相似的語句之調變頻譜強度成分能在NMF空間有越相近的向量表示，以保留兩兩語句之間的關連程度；（3）在測試階段經由正規化NMF之編碼向量，更進一步提升語音特徵之強健性；（4）我們結合上述三種NMF的改進方法。本論文的所有實驗皆於國際通用的Aurora-2連續數字語音語料庫進行；一系列的實驗結果顯示出，相較於僅使用梅爾倒頻譜特徵（Mel-frequency Cepstral Coefficients, MFCC）之基礎系統，我們所提出的新穎語音強健性技術能夠顯著地增進語音辨識效能，最終獲得63.18%的相對詞錯誤率降低。
起訖頁	100-102
關鍵詞	語音辨識、雜訊、強健性、調變頻譜、非負矩陣分解
刊名	ROCLING論文集
期數	2015 (2015期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	基於貝氏定理自動分析語料庫與標定文步
該期刊-下一篇	融合多種深層類神經網路聲學模型與分類技術於華語錯誤發音檢測之研究

新書閱讀

元照讀書館

優惠活動

月旦品評家

元照讀書館

．研討會新訊

月旦知識庫

月旦法律分析庫
月旦醫事法網
月旦會計財稅網

期刊數位服務

社群平台

讀者服務

關於元照

讀者服務專線：+886-2-23756688　傳真：+886-2-23318496
地址：臺北市館前路28 號 7 樓　客服信箱