中文斷詞在中文的自然語言處理上,是個相當基礎且非常重要的工作。近年來的斷詞系統較傾向於機器學習式演算法來解決中文斷詞的問題,但使用傳統的作法,隱藏式馬可夫模型在解決中文斷詞的問題上,無法達到較好的斷詞效能(F-measure約80%),所以許多研究都是使用外部資源或是結合其他的機器學習演算法來幫助斷詞。本研究的目的是使用「特製化」(specialization)的概念來提升隱藏式馬可夫模型的準確率,我們的作法是給予隱藏式馬可夫模型更多的資訊,在完全不修改模型之訓練及測試過程的前提下,透過兩階段特製化的方式,分別為擴充「觀測符號」,以及擴充「狀態符號」的方式,大大地改善了隱藏式馬可夫模型的斷詞準確性。第一階段中,我們使用長詞優先法,來增加額外的資訊於隱藏式馬可夫模型中,使得模型擁有更多的斷詞資訊做學習。於實驗結果發現,只使用這個最簡單的長詞優先斷詞方法,確實能大幅地提升隱藏式馬可夫模型的效能。而第二階段中,我們則使用詞彙式隱藏式馬可夫模型Lexicalized HMM)的概念,也就是只根據某些特製詞(specialized words)來做特製化,將狀態做延伸,實驗結果也證明詞彙式隱藏式馬可夫模型可再次提升系統斷詞效能。 |