本論文設計了一套結合PAT-tree的統計資訊與規則比對以進行多層次斷詞的方法,用以解決一般斷詞系統中未知詞不容易被斷出的問題,並提出一組以召回率(recall)和衝突率(conflict)為基準的多層次斷詞評估方法,用來評估本系統的斷詞正確率。召回率定義為標準斷詞集合中被系統斷出的百分比,衝突率則是系統斷詞與標準斷詞交又重疊的比率。本系統之實驗以中央研究院平衡語料庫為標準斷詞語料,該語料庫共有455萬詞,我們取其中265萬詞為訓練語料,剩下的190萬詞為測試語料。實驗結果在訓練語料上的詞彙召回率為96.9%、衝突率為0.50%在測試語料上的詞彙召回率為96.7%、衝突率為0.50%。本實驗說明了經由PAT-tree與規則比對兩者混合使用,可使召回率有相當程度的提升,這證明了在未知詞的處理上,PAT-tree與規則比對有互補的效果。 |