正體中文斷詞系統應用於大型語料庫之多方評估研究

Wen-Chao Yeh; Yu-Lun Hsieh; Yung-Chun Chang; Wen-Lian Hsu

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	正體中文斷詞系統應用於大型語料庫之多方評估研究
並列篇名	Multifaceted Assessments of Traditional Chinese Word Segmentation Tool on Large Corpora
作者	Wen-Chao Yeh (Wen-Chao Yeh)、Yu-Lun Hsieh (Yu-Lun Hsieh)、Yung-Chun Chang (Yung-Chun Chang)、Wen-Lian Hsu (Wen-Lian Hsu)
中文摘要	本研究之目的在於運用多種數值指標及實驗資料來評估CKIP、Jieba、MONPA等三種廣泛應用於臺灣自然語言處理產學界的正體中文斷詞器。我們特別針對運算效能、資源需求等等面向，檢驗其應用於大型語言文字資料集時，處理斷詞、詞性標註及命名實體辨識等工作之成效。實驗結果顯示，MONPA利用圖形運算加速器（GPU）進行批次處理斷詞時，可以大幅度縮減巨量中文資料的運算時間，且其斷詞、詞性標註、命名實體辨識等多功能標籤均達到令人滿意的品質，且其產出之標註結果可有效輔助提升中文自然語言處理的後續相關任務成效。
英文摘要	This study aims to evaluate three most popular word segmentation tool for a large Traditional Chinese corpus in terms of their efficiency, resource consumption, and cost. Specifically, we compare the performances of Jieba, CKIP, and MONPA on word segmentation, part-of-speech tagging and named entity recognition through extensive experiments. Experimental results show that MONPA using GPU for batch segmentation can greatly reduce the processing time of massive datasets. In addition, its features such as word segmentation, part-of-speech tagging, and named entity recognition are beneficial to downstream applications.
起訖頁	193-199
關鍵詞	自然語言處理，中文斷詞，詞性標註，命名實體辨識、NLP、Chinese Word Segmentation、POS、NER
刊名	ROCLING論文集
期數	202212 (2022期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	以民事訴訟之爭點分群為基礎的類似案件搜尋系統
該期刊-下一篇	針對特定領域之中英語碼語音辨識系統

新書閱讀

元照讀書館

優惠活動

月旦品評家

元照讀書館

．研討會新訊

月旦知識庫

月旦法律分析庫
月旦醫事法網
月旦會計財稅網

期刊數位服務

社群平台

讀者服務

關於元照

讀者服務專線：+886-2-23756688　傳真：+886-2-23318496
地址：臺北市館前路28 號 7 樓　客服信箱