本論文探討改善最小化音素錯誤為基礎的鑑別式聲學模型訓練於中文大詞彙連續語音辨識之研究。首先,本論文提出一個新的音框層次音素正確率函數來取代最小化音素錯誤訓練的原始音素正確率函數,此新的音素正確率函數在某種程度上能充分地懲罰刪除錯誤。其次,本論文提出一個以音框層次正規化熵值為基礎的嶄新資料選取方法來改進鑑別式訓練,其正規化熵值是由訓練語料所產生之詞圖中高斯分布之事後機率所求得。此資料選取方法可以讓鑑別式訓練更集中在那些離決定邊界較近的訓練樣本所收集的統計值,以達到較佳的鑑別力。所使用的實驗題材是公視新聞外場記者語料。初步的實驗結果顯示,結合時間音框層次的資料選取方法和新的音素正確率函數在前幾次的迭代訓練中確實有些微且一致的進步。 |