月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
中文計算語言學期刊 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
結合長詞優先與序列標記之中文斷詞研究
並列篇名
A Simple and Effective Closed Test for Chinese Word Segmentation Based on Sequence Labeling
作者 林千翔張嘉惠陳貞伶
中文摘要
中文斷詞在中文的自然語言處理上,是個相當基礎且非常重要的工作。近年來的斷詞系統較傾向於機器學習式演算法來解決中文斷詞的問題。但使用傳統的作法,如隱藏式馬可夫模型在解決中文斷詞的問題上,無法達到較好的斷詞效能(F-measure約80%),所以許多研究都是使用外部資源或是結合其他的機器學習演算法來幫助斷詞。然而當外部資源不易取得時,如何以簡易的方式達到準確的斷詞,則是本研究的目標。在本篇論文中我們以訓練資料所提供的詞彙建構一個辭典,並以長詞優先比對(Maximum Matching)提供正向及反向的斷詞結果做為應用序列標記之機器學習特徵函數,用以提升隱藏式馬可夫模型(HMM)及條件隨機域(CRF)序列標記的準確率。我們發現,藉由長詞優先比對,得以在完全不修改模型之訓練及測試過程的前提下,透過辭典的遮罩(Mask)及特製化(Specialized)方式,改善斷詞的效能。實驗結果顯示,長詞優先可大幅改善馬可夫模型的斷詞效能(F-measure: 0.812-->0.948);而利用Mask方式則可將斷詞效能提升至0.953;另挑選高錯誤率的字元做為特製詞,則可再次提升斷詞效能至 0.963。若採用條件隨機域做為序列標記模型,則僅需透過辭典遮罩,即可將系統斷詞效能提升至0.963。
起訖頁 161-179
關鍵詞 自然語言處理隱藏式馬可夫模型中文斷詞條件隨機域Chinese word segmentationMaximal matchingHidden Markov modelConditional random fieldVocabulary masking
刊名 中文計算語言學期刊  
期數 201009 (15:3-4期)
出版單位 中華民國計算語言學學會
該期刊-下一篇 Word Sense Disambiguation Using Multiple Contextual Features
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄