中文自然語言的應用近年來越來越受到重視,例如中英翻譯、文件辨識等系統。在這些應用系統中,詞庫扮演著非常重要的角色。然而,新詞不斷的產生,會影響以詞庫為基礎的應用系統效能。因此在本論文裡,我們將建構一個二階段新詞萃取機制。在第一階段利用構詞學的原理建立三音詞萃取法則用以萃取三音詞,再以非詞彙篩檢法則來過濾掉非詞彙字組以減少第二階段的分辨量。第二階段的則以詞組間的特徵統計資訊,利用類神經網路作新詞的進一步的辨認。從實驗的結果可知我們所設計的篩檢與萃取法則將可迅速地萃取新詞。此外我們並探討特徵資訊的選取與多寡對作新詞的辨認成效影響。 |