詞義相似度計算在很多領域中都有廣泛的應用,例如資訊檢索、資訊抽取、文
本分類、詞義排歧、基於實例的機器翻譯等等。詞義相似度計算的兩種基本方
法是基於世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基於統
計的上下文向量空間模型方法。這兩種方法各有優缺點。
《知網》是一部比較詳盡的語義知識詞典,受到了人們普遍的重視。不過,由
於《知網》中對於一個詞的語義採用的是一種多維的知識表示形式,這給詞語
相似度的計算帶來了麻煩。這一點與WordNet 和《同義詞詞林》不同。在
WordNet 和《同義詞詞林》中,所有同類的語義項(WordNet 的synset 或《同
義詞詞林》的詞群)構成一個樹狀結構,要計算語義項之間的距離,只要計算
樹狀結構中相應結點的距離即可。而在《知網》中辭彙語義相似度的計算存在
以下問題:
1. 每一個詞的語義描述由多個義原組成;
2. 詞語的語義描述中各個義原並不是平等的,它們之間有著複雜的關係,通
過一種專門的知識描述語言來表示。
我們的工作主要包括:
1. 研究《知網》中知識描述語言的語法,瞭解其描述一個詞義所用的多個義
原之間的關係,區分其在詞語相似度計算中所起的作用;我們採用一種更為結構化的方式改寫了《知網》中詞的定義(DEF),其中採用了“集合?
和“特徵結構?這兩種抽象資料結構。
2. 研究了義原的相似度計算方法、集合和特徵結構的相似度計算方法,並在
此基礎上提出了利用《知網》進行詞語相似度計算的演算法;
3. 通過實驗驗證該演算法的有效性,並與其他演算法進行比較。 |