本篇論文提出一種方法來有效的處理華台雙語同時存在於同一句話的語音辨識問題。主要的核心可分為三部分;一、聲學模型:此部分是用一個共同的標音系統,使相同的發音的標音在不同語言上能夠做語料的分享,而且在語音特徵擷取上也加上聲調的參數,以減少華字與音節間的混淆。二、發音模型:此部分是結合了以專家知識為主的發音辭典與實際上語料分析結果而成變異發音,前者是統計了的華台雙語辭典的華字對音節發音機率,找出一個華字在辭典上所有可能的發音;而後者是將音節的辨識結果做成發音對華字的混淆機率。第三部份是將華字直接嵌入在語言模型中,作為搜尋的節點。之後用唐詩300首的實驗,其針對目前台灣地區華台夾雜的語句,以及發音變異性的問題,都能確實降低一成五到兩成的漢字相對錯誤率。最後將此技術移植到PDA上,也做了相關的應用。 |