本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關聯性,擷取的方式是使用資料探勘中十分流行的Apriori 演算法,傳統上n-gram語言模型只能在n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克服n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性,可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法比起傳統觸發序對獲得較低的perplexity,此關聯法則技術也可以有效的與其他模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效果,最後本論文也將提出的語言模型成功的應用在語音辨識與文件分類上,並建立一套個人化之新聞瀏覽器之展示系統。 |