中文摘要 |
傳統語言模型(Language Models)是藉由使用大量的文字語料訓練而成,以機率模型來描述自然語言的規律性。N連(N-gram)語言模型是最常見的語言模型,被用來估測每一個詞出現在已知前N-1個歷史詞之後的條件機率。此外,傳統語言模型大多是以最大化相似度為訓練目標;因此,當它被使用於語音辨識上時,對於降低語音辨識錯誤率常會有所侷限。近年來,有別於傳統語言模型的鑑別式語言模型(Discriminative Language Model)陸續地被提出;與傳統語言模型不同的是,鑑別式語言模型是以最小化語音辨識錯誤率做為訓練準則,期望所訓練出的語言模型可以幫助降低語音辨識的錯誤率。本論文探究基於不同訓練準則的鑑別式語言模型,分析各種鑑別式語言模型之基礎特性,並且比較它們被使用於大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)時之效能。同時,本論文亦提出將邊際(Margin)概念引入於鑑別式語言模型的訓練準則中。實驗結果顯示,相較於傳統N連語言模型,使用鑑別式語言模型能對於大詞彙連續語音辨識有相當程度的幫助;而本論文所提出的基於邊際資訊之鑑別式語言模型亦能夠進一步地提升語音辨識的正確率。 |