本論文合併兩種方法預測未知動詞的詞類。第一種方法為規則法,即從訓練
語料中歸納出未知動詞組成的構詞規律,分成兩個主要的判斷方式:一、依
照未知動詞的組成的關鍵字決定其分類。二、依照未知動詞的構成組合決定
其分類。
關鍵字法首先將動詞依長度分為四組。第一組為二字詞、三字詞、四字詞、
五字以上的詞彙。在對實際語料的觀察下,發現不同詞長的動詞結構相異,
因此將語料依詞長分組。例如:三字詞可訓練出「好」、「出」兩條規則決
定動詞的詞類,其他長度的未知動詞並沒有這兩條規則,另外「化」規則不
適用於二字動詞。
規則法的第二部分為依照構成組合決定其分類。在觀察未知動詞時,發現有
部分未知動詞的組合很具有規律,我們就將訓練語料中未知動詞的組合做個
歸納,得到九種組合。在十次實驗中,規則法可以處理的未知動詞平均約為
23.19%,猜測正確的比例為91.67%。
二、相似法為利用與未知動詞相似的例子來預測未知動詞的詞類。相似法主
要利用知網與中央研究院中文句結構樹資料庫1.0 作為語意與詞類相似度測
量的工具。藉由計算未知動詞與已知動詞的相似度來預測未知動詞的詞類,
未知動詞的詞類為與其相似度最高的相似例子的詞類。
* 中央研究院資訊所,曾慧馨E-mail: huihsin@iis.sinica.edu.tw
陳克健E-mail: kchen@iis.sinica.edu.tw
+ 政使用相似法的好處在於相似法所尋找的的相似詞,若相似度高的話,不僅可
以預測詞類分類,同時也可以預測語意與結構分類。當兩個辭彙相似度高時,
表示這兩個辭彙的詞類、語意類與結構必定相似。在十次實驗中,使用相似
法預測動詞的正確率約為71.05%。
規則法的優點在於判斷正確率高,缺點為可處理的未知動詞數量有限;相似
法的優點為可以處理大部分的未知動詞,但正確率不如規則法高。最後,我
們結合這兩種處理方法來預測未知動詞的分類,將兩個方法同時應用在最後
的測試語料中,規則法的正確率為87.25%,而相似法的正確率為65.04%,兩
著者結合後的正確率為70.80%。 |