機器翻譯是自然語言處理研究上最重要的課題之一,在過去運用機器翻譯比較成功的例子,多是特定的領域文件的翻譯。近來因為網際網路與搜尋引擎的盛行,大家開始重視機器翻譯在跨語言檢索(Cross Language Information Retrieval)中的角色。在跨語言檢索的問題上,通常是對查詢字詞或片語,進行翻譯(Query Translation)。然而翻譯的結果必須和欲搜尋的文件庫的有高度的相關性,才能達到檢索的效果。目前的查詢關鍵詞翻譯的做法,或者採用現成的翻譯軟體,或者使用一般性的雙語詞典,都無法產生和文件相關的翻譯。因此我們希望能夠透過統計式機器翻譯的做法來進行查詢關鍵詞的翻譯,以提高跨語言檢索的效率。在這篇論文中,我們提出新的統計式片語翻譯模型,並進行實驗,證實能改進原有的統計式機器翻譯模型的缺點,提升片語對應與翻譯的效率。 |