中文摘要 |
基於線性多變量迴歸(linear multivariate regression, LMR)頻譜對映之語音轉換方法,轉換出的頻譜包絡(spectral envelope)仍然存在過度平滑(over smoothing)的現象,因此本論文研究在音段式LMR頻譜對映之前加入直方圖等化(histogram equalization, HEQ)的處理,並且在LMR頻譜對映之後加入目標音框挑選的處理,希望藉以提升轉換出語音的品質。原先我們提出的基於LMR頻譜對映之語音轉換系統,其主要的處理流程如圖一所示,而在本論文裡所嘗試的改進則如圖二與圖三所示。直方圖等化近年來被應用於語音辨識領域,用以減緩環境噪音造成的訓練語音和測試語音之間的頻譜不匹配問題,因此在觀念上應可用直方圖等化的處理,來把來源語音的頻譜轉變成目標語音的頻譜。在此,直方圖等化處理包含兩個步驟,首先是把離散倒頻譜係數(discrete cepstral coefficient, DCC)轉換成主成分分析(PCA)係數,接者把PCA係數轉換成累積密度函數(CDF)係數。圖二中的LMR對映方塊,一開始時是未被加入的,不過經由初步的測試實驗發現,當沒有作LMR對映的處理時,轉換出語音的音色雖可達到部分近似目標語者的音色,但是仍存在明顯的音色落差,因此我們遂決定把LMR對映方塊加上去,以提升音色相似度。 |