中文摘要 |
中文句結構樹資料庫(Sinica Treebank)建構的主要目的是提供中文自然語言處理研究一個具有標記語料庫的研究素材,我們可以從這個中文句結構樹資料庫中抽取語法知識,也藉由語法知識的抽取與了解使我們剖析系統功能更趨完善。本文介紹中文句結構樹資料庫建構方法和步驟,從五百萬詞的中央研究院平衡語料庫(Sinica Corpus),抽取句子,以訊息為本格位語法(Information - based Case Grammar, ICG)的表達模式為基本架構,經由電腦自動剖析成結構樹。可以盡量維持結構標記的一致性,最後並加以人工修正、檢驗,以維持標記的正確性。對於歧義的句法結構形式及詞類標記,我們也提出處理的原則。 |