WordNet 提供豐富的詞彙語意資訊,因此對於自然語言處理相關研究有很大的
幫助。但是由於Princeton WordNet 的語意資訊僅以英文的形式呈現,為了能
讓WordNet 所蘊含的豐富資源也能應用到中文相關處理,我們試圖利用雙語
字典等多項已存在的資源做為橋樑,希望能將英文WordNet 的豐富資源自動
引介到中文。但是,在我們觀察這些連結英文WordNet 與雙語字典所產生的
初步結果後,發現由於語言之間的藩籬以及雙語字典的目標語詞彙大都偏向於
解釋等多種原因,使得英文同義詞集(Synset)所對應到的中文翻譯,常是一些
不具結構性的中文複合詞、片語、甚至是一長串的句子,而不是獨立的中文詞
彙。這樣的現象與中文詞網應以詞彙為基本元件的要求相違背。因此,本研究
將針對這種現象作進一步的處理。
本文的主要目標有下列兩項:首先,自中文複合詞找出最能代表其意義的中心
詞彙,及若干個特徵詞彙。其次,將這些詞彙進一步以語意概念形式表達出來。
第一個部分,我們透過語法結構分析來完成。至於,第二個部分,詞彙的語意
我們透過知網的概念特徵來表示。當然,在中文詞彙轉為詞義概念的部分,是
存在著歧義現象的。辨識語意歧義的方法,我們除了用到詞彙的詞性之外,還
透過WordNet 的上位關係來降低歧義度。我們以名詞部分進行實驗,實驗結
果顯示在語意標示方面,可達到93.5%的應用率以及93.8%的正確率。 |