中文摘要 |
文字蘊涵是自然語言處理最近興起的研究課題。文字蘊涵識別(Recognizing Textual Entailment, RTE)可以應用到其他許多自然語言處理的研究中。在本文中將介紹我們在觀察NTCIR-10-RITE-2 資料集後發現過去系統的缺陷,進而提出如何改進中文文字蘊涵系統的方法。過去的系統處理文字蘊涵多使用機器學習分類文題的方法,所有輸入句子都用同樣的分類器處理,對於某些特別的問題往往會產生誤判。我們認為應該針對於特定類型的問題做處理,增加系統可以處理的問題類型。實驗結果顯示配合之前提出的機器學習方法,增加四種特殊類型分類對特殊類型句子進行個別處理,可以有效改進系統,實驗結果系統在識別簡體中文蘊涵兩類的正確率從原本67.86%提昇到72.92%。 |