統計式馬可夫語言模型由於實作容易,且在語音辨認上的正確率能夠維持相當的水準,因此近年來得到相當廣泛的使用。然而這類語言模型也存在一些困難,如訓練語料不足時連帶導致參數值可信度較低,及語言模型參數過多在使用上造成龐大的記憶體需求。本文即是針對上述這些問題,提出改善方法。我們提出一備以詞群為基礎的語言模型,且配合一種把詞字洞分群處理的技術,將統計資訊相似的詞歸為一群,利用同群之詞彙分享彼此統計資訊的特性來解決前述問題。藉由此方法所得的分群結果,經由觀察發現與文法上的詞類有相當程度的吻合。且將此結果應用於語音辨認上,由實驗的辦認率來看,以詞群為基礎的語言模型接近於詞雙連語言模型,但所需的記憶體則遠少於詞雙連語言模型。 |