傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法,通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系統包含四個子網路,分別是DNNG以sequence-to-sequence架構作字轉音,DNNC以word2vec擷取characterclass,DNNT以recurrent neural networklanguage model(RNNLM),求取字元時序關係,與DNNs以deep neural network進行語音合成。實驗語料由專業播音員錄製,內容包括孟德爾傳全書以及從網路擷取約3000句的中英夾雜句子。並以相同文字要求新舊系統各自合成測試語料,請10人進行聽測試,分別以新舊系統各聽10句,進行A/B/X偏好度測試,與以新舊系統各聽20句,做mean opinion score(MOS)評分,評估新舊系統的可理解度,自然度與相似度。從實驗結果發現,在可理解度、自然度和相似度方面,分別有72%、70%和61%的人偏好新系統。而且新系統的可理解度、自然度和相似度的MOS主觀分數各為3.59、3.1和3.18分,高於舊系統的3.33、3.03和2.9分,顯示我們所提出的系統效能相當不錯,印證我們提出的想法確實可行。 |