中文摘要 |
本文實做Kudo and Matsumoto(2000, 2001)以向量支撐機(SVM)辨識基底名詞組(base NP)演算法。我們以中央研究院中文句結構樹資料庫Sinica Treebank 3.0的80%作為訓練語料,20%作為測試語料,並比較以Sinica Treebank三種不同的詞性標記集訓練出來的SVM的辨識率(簡化標記,精簡標記,及簡化標記的大類)。實驗的結果顯示具備詳細次分類的簡化標記的辨識率最高,在封閉測試的F-measure為87.43%,初步小規模開放測試的F-measure為78.79%。詳細次分類的標記集的名詞組辨識率較高的原因是中文某些類別的動詞能夠修飾名詞,因此沒有詳細次分類的詞類標記集無法區別那些類別的動詞可以修飾名詞。與英文日文高達94%以上的辨識率相比較,SVM在中文基底名詞組辨識的效果並不理想,我們認為中研院句法樹的表示法與中文本身的特性是造成辨識率不夠高的主要原因。 |