中文摘要 |
漸凍人症(肌萎縮性脊隨側索硬化症,Amyotrophic lateral sclerosis,ALS)為一種神經退化性疾病,這種疾病目前還沒有治癒的方法,並會讓漸凍人慢慢失去說話能力,最終導致無法利用語音與人溝通,而失去自我認同。因此,我們需要為漸凍人建立適合其使用之語音溝通輔具(voice output communication aids, VOCAs),尤其是讓其能具有個人化的合成語音,即病友發病前的聲音,以保持自我。但大部分在ALS後期,已經不能講話的病友,都沒有事先妥善保存好個人的錄音,最多只能找出有少量大約20分鐘的低品質語音,例如經過失真壓縮(MP3)、只保留低頻寬(8 kHz),或是具有強烈背景雜訊干擾等等,以致無法建構出適合ALS病友使用的個人化語音合成系統。針對以上困難,本論文嘗試使用通用語音合成系統搭配語音轉換演算法,並在前級加上語音雜訊消除(speech denoising),後級輔以超展頻模組(speech super-resolution)。以能容忍有背景雜訊的錄音,並能將低頻寬的合成語音加上高頻成分(16 kHz)。以盡量能從低品質語音,重建出接近ALS病友原音的高品質合成聲音。其中,speech denoising使用WaveNet,speech super-resolution則利用U-Net架構。並先以20小時的高品質(棚內錄音)教育電台語料庫,模擬出成對的高雜訊與乾淨語音語句,或是低頻寬與高頻寬語音,分別訓練WaveNet與U-Net模型,再用以處理病友的低品質語音錄音音檔。實驗結果顯示,訓練出來的WaveNet與U-Net模型,可以相當程度還原具雜訊或是低頻寬的教育電台語音檔。並能用來替ALS病友重建出高品質的個人化合成聲音。 |