中文摘要 |
基於線性多變量迴歸(linear multivariate regression, LMR)頻譜對映之語音轉換方法,轉換出的頻譜包絡仍然存在過度平滑(over smoothing)的現象,因此本論文研究在音段式LMR 頻譜對映之前加入直方圖等化(HEQ)的處理,並且在LMR 頻譜對映之後加入目標音框挑選的處理,希望藉以提升轉換出語音的品質。在此,直方圖等化處理包含兩個步驟,首先是把離散倒頻譜係數(DCC)轉換成主成分分析(PCA)係數,接者把PCA 係數轉換成累積密度函數(CDF)係數;目標音框挑選則是依據一個音框的音段類別編號、及LMR 對映出的DCC 向量,到目標語者相同音段類別所收集的音框群中,去搜尋出距離較小的目標語者DCC 向量、並且取代原先對映出的DCC 向量,如此以避免發生頻譜包絡之過度平滑現象。對於直方圖等化與目標音框挑選,我們以外部平行語料(未參加模型參數訓練)來量測語音轉換之平均DCC 誤差,當加入直方圖等化後會使誤差值變大一些,而當加入目標音框挑選後則會使誤差值變大得更多。不過,VR (variance ratio)值量測及主觀聽測的結果卻是相反的方向,亦即直方圖等化可使語音品質提升一些,而目標音框挑選則可使語音品質獲得更為明顯的提升。這種誤差距離值和語音品質聽測之間的不一致性,我們設法去尋找了它的原因,所找到的一個理由在內文裡說明。 |