中文動詞名物化的現象在中文的語法研究上一直是一個重要的課題。而對中文自然語言處理系統來說,自動判別句子當中的動詞是否名物化也是在剖析過程當中不可或缺的技術之一。一個動詞在句子當中所扮演的角色到底是單純的謂語,或是派生名詞,影響剖析結果甚鉅。由於中文動詞名物化時缺乏構形上的變化(zero-derivation),因此判斷動詞是否名物化就必須仰賴動詞本身的內部語素結構、語意以及上下文方可得知。過去由於語料庫大小限制,欠缺足夠的名物化樣本及其語境可供建立統計式模型,因此前人多利用少數觀察到的語法規則企圖建立規則式模型來判斷名物化。舉例來說,動詞前或後出現“的"時,這個動詞即有很高的可能性是派生名詞。然而,較為複雜的名物化現象仍難以這些簡單的規則就能判定。本論文是第一個嘗試以統計方式自動判斷中文動詞名物化的研究。利用大規模的帶名物化標記的語料庫,根據不同假設,訓練出各類統計式模型,自動判斷一個動詞在其語境當中是否名物化。實驗結果顯示出,表現最佳的統計模型對於派生名詞的包含率為71.8%,準確率為76.6%,F-Score為74.1%。我們也針對不同的統計式模型的表現作分析,發現整合派生名詞的動詞來源詞(verbal counterpart)的語法詞類(syntax category)訊息的模型,往往比未包含此訊息的模型表現要來得好。經由實際語料的分析,我們觀察到不同的動詞來源詞的語法詞類不僅僅在扮演謂語角色時語境不同,在扮演派生名詞的角色時,所搭配的語境有時也有極大的差異。這樣的差異性在設計名物化判斷系統上是不可欠缺的關鍵因素之一。 |