中文摘要 |
文字蘊涵是自然語言處理最近興起的研究課題。文字蘊涵識別(Recognizing Textual Entailment, RTE)的目標為給定一個句子對(T1,T2)系統能夠準確的推斷這兩句子之間的蘊涵關係。文字蘊涵識別最基本的方法是藉由句子字面上的資訊例如語意、句法等等進而推斷句子是否有著蘊涵關係,因此文字蘊涵識別可以應用到其他自然語言處理的研究中,如問答系統、資訊抽取、資訊檢索、機器翻譯[3][4]等等。我們所參與公開評測NTCIR10 RITE-2[5]將文字蘊涵的研究分成兩種層面,首先是分兩類(Binary Class, BC),任務的目標是單純判別T1與T2之間是否具有蘊涵關係。但句子之間蘊涵關係並不能單純以有或沒有這麼簡單就區分開,NTCIR RITE另外定義多類(Multi Class, MC)這項任務,將句子之間的蘊涵分類為正向、雙向、矛盾、與獨立四種關係。假設這個句子對具有蘊涵關係,但有可能兩個句子所包涵的資訊數量不同,造成我們只能從其中一個句子推論出另一個句子的完整的意思,這樣的情況我們稱為兩個句子間的蘊涵關係為正向蘊涵。反之兩個句子可以互相推論出另一個句子的含意,這樣的情況我們就稱為雙向蘊涵關係。假設句子對之間沒有蘊涵關係,我們可以很合理認為兩個句子所表達的意思不相同,但這並不完全正確的想法。可能兩個句子所包涵的資訊大致相同只是少部份資訊不同造成句子的意思互相衝突,這樣的情況我們就稱之為矛盾蘊涵。或是兩個句子本身包涵的資訊毫無關係這樣的情況我們就稱之為獨立蘊涵,藉由將句子之間的蘊涵關係細分,使得文字蘊涵系識別的研究更有其意義。 |