月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
資訊管理研究 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
以遺傳演算法為基礎的中文斷詞研究
並列篇名
A Study on Chinese Word Segmentation: Genetic Algorithms Approach
作者 陳稼興謝佳倫許芳誠
中文摘要
斷詞在中文自然語言處理上,是個非常重要的前期作業。本研究提出以遺傳演算法為基礎的中文斷詞模型,用以處理中文斷詞。在我們提出的模型中,詞庫是自動建立的,除了避免人為介入導致的不客觀性外,也避免浪費寶貴的人力資源。在斷詞處理上,則是利用詞庫中的「詞出現次數」和「詞長」兩個因子編成適應函數,作為遺傳演算法演化的依據。一般斷詞方法,在斷短詞上的效果不錯,一旦遇到長詞,正確率就會大幅下降;但是若改採長詞優先,則因長詞可能包含短詞,導致短詞可能斷不出來。本研究模型的特色是,長詞有較大的機會被優先斷出,而任何短詞只要在文章中出現的次數夠多,還是有機會被斷出。此外,在模型中我們運用遺傳演算法進行中文斷詞,由於遺傳演算法可以讓我們保留最好的前三個(或更多)斷詞結果,而不是僅僅保留一個斷詞結果,讓後階段的中文處理有更多的選擇,這樣的特性有助於處理「斷詞的歧義性(ambiguity)」的問題。為驗證模型的效益,我們採用中時電子報下載的電子檔案為樣本進行實驗。實驗分析結果顯示,本研究模型確實已達可接受水準。
英文摘要
For Chinese natural language processing systems, word segmentation is a very important pre-processing step. In this study, a genetic algorithm-based word segmentation model is proposed. In the model, a dictionary for word segmentation is automatically generated from the training articles. GA’s population search feature makes it easy to find several better segmentation candidates, which are helpful to the following steps in Chinese language processing. Experimental results on 300 articles show that our GA-based approach to Chinese word segmentation is highly feasible.
起訖頁 27-44
關鍵詞 中文斷詞遺傳演算法中文自然語言處理Chinese word segmentationgenetic algorithmsChinese language processing
刊名 資訊管理研究  
期數 200007 (2:2期)
出版單位 國立中央大學資訊管理系
該期刊-上一篇 影響資訊系統使用者抗拒行為之原因:以計劃行為理論為基礎之整合研究
該期刊-下一篇 認知負荷對多媒體電腦輔助學習成效之影響研究
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄