本論文研究了一種結合HMM(hidden Markov model)頻譜模型與ANN(articifical neural network)韻律模型的國語語音合成系統。在訓練階段,對各個訓練語料音框算出DCC係數(discrete cepstrum coefficients),以作為頻譜特徵參數,接著對於一種音節的多個發音,依DTW(dynamic time warping)匹配出的頻譜演進路徑作分群,各群建立一個HMM,並記錄各音節發音的文依性資訊。在合成階段,首先依據文依性資訊挑選出輸入文句各音節的HMM模型,接著判定音節HMM的各個狀態為無聲、或有聲,然後使用音長ANN模型及狀態平均音長來決定HMM各狀態應該產生的音框數。除了前人提出的MLE(maximum likelihood estimate)法,我們另外研究二種內插方法來產生各音框的DCC係數,以讓語音合成的速度達到即時處理。接著依據DCC係數轉出的頻譜包絡,及ANN產生出的基週軌跡與音長,去控制HNM(harmonic-plus-noise model)作語音信號的合成。聽測實驗的結果顯示,使用所提出的加權式線性內插法來產生DCC係數,合成出的語音信號比起使用MLE法的,可以得到一些自然度的改進;另外,使用ANN音長參數,也比使用HMM狀態本身的平均音長,會獲得明顯較高的自然度。 |