在多語環境下,一段語句可能發生由一種語言轉換到另一種語言的現象,也就是說,語句由兩種或兩種以上的語言所組成,此即為語碼轉換(code-switching)現象。以我國語言使用的情況來說,國語夾雜台客英短語的現象在日常生活中已相當普遍,這些語言混用現象也造成了語言處理上的重大挑戰。有鑑於此,本論文收集中英、國台及國客夾雜之文字語料,並分析以國語為主要語言之中英、國台及國客夾雜現象,接著提出以交互資訊(mutual information)與熵(entropy)為基礎之未知詞擷取演算法,自動從多語夾雜語料中找出未知詞。實驗結果顯示本論文所提出的方法可藉由過濾無關的新詞提升未知詞擷取之精確度。 |