中文語料庫構建及管理系統設計

馬偉雲; 謝佑明; 楊昌樺; 陳克健

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	中文語料庫構建及管理系統設計
作者	馬偉雲、謝佑明、楊昌樺、陳克健
中文摘要	一個中文帶詞類標記的平衡語料庫，在中文自然語言的研究與應用上是不可或缺的角色，然而要構建一個數量大且高品質的語料庫往往需要投入大量的人力及時間，為了提升構建的效率以及提高語料庫管理的機能，在管理方面，我們建立了以文本為單位的資料庫系統作為語料庫的架構，並開發一管理介面。構建方面，我們設計了一套構建流程以及開發了四個子系統來幫助我們完成構建語料庫的工作。構建語料庫的第一步是語料蒐集，為此我們設計了一個語料蒐集介面，能夠蒐集網路上豐沛的電子文件資源，並在某些特定網址來源當中自動分析其文本格式。第二步是語料的斷詞及標記，我們透過未知詞擷取模組作為斷詞標記的前處理，大幅提高了斷詞標記程序的正確性，減少其後人力校正的負擔。最後一步是人工檢驗，我們設計了操作簡便的人工檢驗介面，並結合詞典與舊版本的語料庫提供使用者參考來做出正確的判斷，完成斷詞、詞類與句子的編修工作。
起訖頁	1-17
刊名	ROCLING論文集
期數	2001 (2001期)
出版單位	國立高雄師範大學輔導與諮商研究所
該期刊-上一篇	簡易影片字幕文字辨識法及其詢答應用
該期刊-下一篇	Design, Compilation and Processing of CUCall: A Set of Cantonese Spoken Language Corpora Collected Over Telephone Networks

新書閱讀

元照讀書館

優惠活動

月旦品評家

元照讀書館

．研討會新訊

月旦知識庫

月旦法律分析庫
月旦醫事法網
月旦會計財稅網

期刊數位服務

社群平台

讀者服務

關於元照

讀者服務專線：+886-2-23756688　傳真：+886-2-23318496
地址：臺北市館前路28 號 7 樓　客服信箱