本論文提出一個可於進行繁體中文文章斷詞時,處理非繁體中文詞彙的方法。包括以日文漢字或中文書寫的日文人名,或是以異體字書寫的同義詞等。處理人名時,我們提出了姓名組合機率模型。處理日文人名時,我們也提出一個異體字對應的方法,可將日文姓氏及名用字對應至繁體中文用字。這方法甚至可以處理同一句子中同時出現日文及繁簡中文書寫方式的情形。在加入各種特殊類別以及中日人名處理方法後,斷詞效能F-measure由94.16%提昇至96.06%。另外對109篇標有日文人名的中文新聞文章進行斷詞實驗,測試集裡862個日文人名被成功斷成詞的比例為83.18%。論文中亦針對以異體字書寫的中文詞提出了一套可行的處理方式。 |