隨著科技的發展與網路的普及,語音識別系統(automatic speech recognition,ASR)已應用於多項可攜式裝置。然而多項研究成果顯示,語音辨識技術的應用仍然受限於一項存在已久卻未完全解決的問題,就是聲學環境不匹配所造成語音辨識效能不佳的問題。聲學環境不匹配表示在語音辨識系統中,由於語者本身的發聲狀況、背景雜訊、通道及麥克風特性,造成語料的訓練環境以及測試環境有所差異,這樣的差異會嚴重影響語音辨識系統的效能。聲學環境的不匹配可以從語音訊號、特徵向量以及聲學模型等三個象限來觀察,如圖一所示。假設訓練環境的語音訊號、特徵向量以及聲學模型象限的表現形式分別是S_X、F_X、Λ_X,相對應測試環境的象限為S_Y、F_Y、Λ_Y,則我們可以在這三個象限觀察到三種不匹配值,分別是D_S(.),D_F(.)、D_M(.)。對於改善聲學環境不匹配的研究,主要可以分成三大類。第一大類試圖降低D_S(.)對原始語音訊號,S_X,的影響。主要的方法為語音增強技術(speech enhancement),包含了濾波器技術(filtering techniques)、頻譜回復技術(spectral restoration techniques)、以及模型技術(speech model based techniques)。 |