中文句結構樹資料庫的構建

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	中文句結構樹資料庫的構建
作者	陳鳳儀、蔡碧芳、陳克健、黃居仁
中文摘要	中文句結構樹資料庫（Sinica Treebank）建構的主要目的是提供中文自然語言處理研究一個具有標記語料庫的研究素材，我們可以從這個中文句結構樹資料庫中抽取語法知識，也藉由語法知識的抽取與了解使我們剖析系統功能更趨完善。本文介紹中文句結構樹資料庫建構方法和步驟，從五百萬詞的中央研究院平衡語料庫（Sinica Corpus），抽取句子，以訊息為本格位語法（Information - based Case Grammar, ICG）的表達模式為基本架構，經由電腦自動剖析成結構樹。可以盡量維持結構標記的一致性，最後並加以人工修正、檢驗，以維持標記的正確性。對於歧義的句法結構形式及詞類標記，我們也提出處理的原則。
起訖頁	87-104
關鍵詞	中文句結構樹資料庫
刊名	中文計算語言學期刊
期數	199908 (4:2期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	基於知網的常識知識標注