中文摘要 |
本論文探討聲學模型上的改進對於大詞彙連續中文語音辨識的影響。近幾年來,語音辨識技術已有了長足的進步。其中,隨著深度學習技術以及電腦運算能力的突破性發展,聲學模型化技術已從傳統的高斯混合模型結合隱藏式馬可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM),轉變成以使用交互熵(Cross Entropy)作為損失函數的深度類神經網路結合隱藏式馬可夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)。DNN-HMM將以往用GMM計算的生成機率透過DNN的輸出層所代表的事後機率來近似,輸入特徵使用當前幀還有相鄰的幀,輸出則和GMM-HMM常用的Triphone共享狀態相同,以得到更低的詞錯誤率(Word Error Rate, WER)或字錯誤率(Character Error Rate, CER)。 |