近年來,機器翻譯技術蓬勃發展並越顯重要。然而,現存的機器翻譯系統對於﹙系統未收錄﹚未知詞多採直接輸出到目標翻譯的方式。此忽略的舉動可能造成未知詞附近的選字錯誤,或是其附近的翻譯字詞順序錯置,因而降低翻譯品質或降低閱讀者對翻譯文章的理解。經過我們的初步分析,大約有25%的系統未知詞可用重述﹙paraphrase﹚的方式來作翻譯,另外的25%可利用組合單字翻譯來翻譯。另外,現有的片語式﹙phrase-based﹚機器翻譯系統對於落單字﹙singleton﹚的翻譯效果也未加重視。所謂的落單字是指系統在翻譯此字時必須單獨翻譯:此字沒法與前面或是後面的字組合成連續字詞片語或是文法翻譯結構。本研究將建構於片語式機器翻譯處理技術,開發未知詞翻譯模組和落單字翻譯模組。實驗結果顯示即使在不假額外的雙語資料,我們的未知詞翻譯模組仍勝出片語式翻譯系統,尤其是在包含有未知詞的句子上。 |