月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
中文計算語言學期刊 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
使用字典學習法於強健性語音辨識
並列篇名
The Use of Dictionary Learning Approach for Robustness Speech Recognition
作者 顏必成石敬弘劉士弘陳柏琳
中文摘要
在有雜訊的環境下,自動語音辨識系統(Automatic Speech Recognition, ASR)的效能往往會有明顯衰退的現象。本論文旨在研究語音強健性技術,希望能夠透過語音特徵的調變頻譜(Modulation Spectrum)正規化以萃取出較具有強健性的語音特徵。為此,我們使用K-奇異值分解(K-SVD)的字典學習法(Dictionary Learning)於分解調變頻譜的強度(Magnitude)成分,在最小化還原訊號誤差且在其權重矩陣稀疏性的限制下,希望能獲取較具強健性的語音特徵。此外,因調變頻譜強度成分皆為正值,所以我們提出非負K-SVD的方法來解決這個議題,希望能增進自動語音辨識系統在抗噪上的效能。本論文的所有實驗皆於國際通用的Aurora-2 連續數字資料庫進行;實驗結果顯示相較於僅使用梅爾倒頻譜係數(Mel-Frequency Cepstral Coefficient, MFCC)之基礎實驗和其它常見的調變頻譜分解方法,我們所提出的字典學習法與其改進方法皆能顯著地降低語音辨識錯誤率。最後,我們也嘗試將所提出的字典學習方法與一些經典的強健性技術結合,如:進階前端標準法(Advanced Front-End, AFE)、變異數正規化法(Cepstral Mean and Variance Normalization, CMVN)、統計圖等化法(Histogram Equalization, HEQ),以驗證其實用性。
英文摘要
The performance of automatic speech recognition (ASR) often degrades dramatically in noisy environments. In this paper, we present a novel use of dictionary learning approach to normalizing the magnitude modulation spectra of speech features so as to retain more noise-resistant and important acoustic characteristics. To this end, we employ the K-SVD method to create sparse representations for a common set of basis vectors that span the intrinsic temporal structure inherent in the modulation spectra of clean training speech features. In addition, taking into account the non-negativity property of amplitude modulation spectrum, we utilize the nonnegative K-SVD method, paired with the nonnegative sparse coding method, to capture more noise-robust features. All experiments were conducted on the Aurora-2 corpus and task. The empirical evidence shows that our methods can offer substantial improvements over the baseline NMF method. Finally, we also integrate the proposed variants of the K-SVD method with other well-known robustness methods like Advanced Front-End (AFE), Cepstral Mean and Variance Normalization (CMVN) and Histogram Equalization (HEQ) to further confirm their utility.
起訖頁 35-53
關鍵詞 強健性自動語音辨識調變頻譜稀疏編碼字典學習法RobustnessAutomatic Speech RecognitionModulation SpectrumSparse CodingDictionary Learning
刊名 中文計算語言學期刊  
期數 201612 (21:2期)
出版單位 中華民國計算語言學學會
該期刊-上一篇 N-best Rescoring for Parsing Based on Dependency-Based Word Embeddings
該期刊-下一篇 評估尺度相關最佳化方法於華語錯誤發音檢測之研究
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄