目前電腦應用在中文處理方面,對於斷詞已能達到相當高的正確率(95%以上),然而在中文詞性標示的基礎研究上,仍未有相當的研究及令人滿意的結果。分析其原因,不外乎中文詞性訂定尚無標準:中文句法較複雜,變化較大,想要以法則分析法來運作似乎不太容易;還有缺乏良好的含有詞性及頻率的電子辭典。目前我們已擁有含有詞性及頻率的電子詞典,且捨棄傳統法則分析的方法,改以機率式的方法,來作詞性的標示。在這個系統裡,我們用了幾個模型,並且分析比較了它們的結果,以期達到最好的效果。此外,對於部份的未知詞,詞長為一或二的,我們也做了處理;還有中文姓名的部份,也在我們討論範圍內。在本篇的後面部份,我們作了正確率的評估與錯誤的分析,以利我們了解什麼是發生錯誤的主因,尋求改進之道。 |