| 中文摘要 |
以最大化相似度估測(Maximum Likelihood Estimation, MLE)來訓練聲學模型(Acoustic Model),在過去數十年廣為語音辨識領域所採用;它主要是考量如何能從訓練語料中獲得統計資訊,以讓聲學模型可以代表訓練語料(換句話說,使聲學模型產生對應的訓練語料之相似度最大)。但此種訓練方法並沒有考慮語音辨識時聲學模型彼此間的關係,在調整聲學模型參數之後,雖可使相關的語音特徵落在某一個聲學模型的相似度變大,卻也可能同時讓非相關的語音特徵落在此聲學模型的相似度更大,造成辨識上的混淆。因此,近來有不少研究針對此項缺點,提出鑑別式訓練(Discriminative Training)法則來加以改進。使用鑑別式訓練法則在進行聲學模型訓練時,不僅考慮到訓練語句的正確(或參考)轉寫(Correct or Reference Transcription),同時也考慮到由語音辨識器對語句進行辨識後產生的與正確轉寫不同的候選詞序列(Candidate Word Sequences),以增進訓練後聲學模型的鑑別能力。 |