一個中文帶詞類標記的平衡語料庫,在中文自然語言的研究與應用上是不可或缺的角色,然而要構建一個數量大且高品質的語料庫往往需要投入大量的人力及時間,為了提升構建的效率以及提高語料庫管理的機能,在管理方面,我們建立了以文本為單位的資料庫系統作為語料庫的架構,並開發一管理介面。構建方面,我們設計了一套構建流程以及開發了四個子系統來幫助我們完成構建語料庫的工作。構建語料庫的第一步是語料蒐集,為此我們設計了一個語料蒐集介面,能夠蒐集網路上豐沛的電子文件資源,並在某些特定網址來源當中自動分析其文本格式。第二步是語料的斷詞及標記,我們透過未知詞擷取模組作為斷詞標記的前處理,大幅提高了斷詞標記程序的正確性,減少其後人力校正的負擔。最後一步是人工檢驗,我們設計了操作簡便的人工檢驗介面,並結合詞典與舊版本的語料庫提供使用者參考來做出正確的判斷,完成斷詞、詞類與句子的編修工作。 |