機器音譯(Machine Transliteration)是機器翻譯中重要的一環,因為許多文章中常有人名、地名及組織名等專有名詞夾雜其中,雖然經由查閱預先整理之詞典可以解決部分的問題,但是這些專有名詞數量隨時間不斷的增加及成長,而辭典的整理既費時又費力,透過音譯詞組自動抽取(Transliterated-Term Pair Extraction),可動態補充辭典內容之不足。有足夠的中英文音譯詞組做為訓練語料之後,則可建立一中英文音節對應(Syllable Mapping)系統,應用於中英文詞組音譯,但問題是該如何快速獲取足夠的中英文音譯詞。本文提出一方法,自網頁中抽取出大量的中英文音譯詞組,利用中文語音辨認系統在辨認過程所產生的混淆矩陣(Confusion Matrix)來克服發音變異(Pronunciation Variation)。從實驗結果發現本文所提出的方法可達到32.26%的檢出率(Recall)及95.23%的準確率(Precision),足以證明所用方法確實可有效的應用於音譯詞組自動抽取。 |