結合統計與規則的多層次中文斷詞系統

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	結合統計與規則的多層次中文斷詞系統
作者	陳鍾誠、許聞廉
中文摘要	本論文設計了一套結合PAT-tree的統計資訊與規則比對以進行多層次斷詞的方法，用以解決一般斷詞系統中未知詞不容易被斷出的問題，並提出一組以召回率（recall）和衝突率（conflict）為基準的多層次斷詞評估方法，用來評估本系統的斷詞正確率。召回率定義為標準斷詞集合中被系統斷出的百分比，衝突率則是系統斷詞與標準斷詞交又重疊的比率。本系統之實驗以中央研究院平衡語料庫為標準斷詞語料，該語料庫共有455萬詞，我們取其中265萬詞為訓練語料，剩下的190萬詞為測試語料。實驗結果在訓練語料上的詞彙召回率為96.9%、衝突率為0.50%在測試語料上的詞彙召回率為96.7%、衝突率為0.50%。本實驗說明了經由PAT-tree與規則比對兩者混合使用，可使召回率有相當程度的提升，這證明了在未知詞的處理上，PAT-tree與規則比對有互補的效果。
起訖頁	63-72
刊名	ROCLING論文集
期數	1998 (1998期)
出版單位	國立高雄師範大學輔導與諮商研究所
該期刊-上一篇	以語境判定中文未知詞詞類的方法
該期刊-下一篇	應用動態、靜待辭典以加速鍵盤輸入中文之方法