中文摘要 |
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函數型態。我們可以發現到,對於上述鑑別式訓練方法,此共通表示函數背後物理意義之差別乃是在於欲觀察訓練語料不同層級的鑑別資訊,如音素(Phone)、語句(Utterance)等,以及共通表示函數之參數設定。其次,本論文針對語音辨識結果所形成的假設空間上所觀察到錯誤(或正確)率的不同細緻層度,在模型訓練時引入了機器學習領域中的邊際概念;其背後的物理意義,事實上就是從不同層級的訓練語料中選取適合的資訊供聲學模型訓練所使用。本論文的目的在於分析近代對於以隱藏式馬可夫模型為聲學模型之模型訓練方法與邊際概念在演進上的一致性;從琳瑯滿目的訓練方法之中,闡述近年來鑑別式聲學模型訓練發展演進之中心思想。最後,我們實作於中文大詞彙連續語音辨識系統,驗證了多種鑑別式聲學模型訓練方法以及我們所提出方法之效能。 |