適合漸凍人使用之語音轉換系統初步研究

黃百弘; 廖元甫

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	適合漸凍人使用之語音轉換系統初步研究
並列篇名	Deep Neural-Network Bandwidth Extension and Denoising Voice Conversion System for ALS Patients
作者	黃百弘、廖元甫
中文摘要	漸凍人症（肌萎縮性脊隨側索硬化症，Amyotrophic lateral sclerosis，ALS）為一種神經退化性疾病，這種疾病目前還沒有治癒的方法，並會讓漸凍人慢慢失去說話能力，最終導致無法利用語音與人溝通，而失去自我認同。因此，我們需要為漸凍人建立適合其使用之語音溝通輔具（voice output communication aids, VOCAs），尤其是讓其能具有個人化的合成語音，即病友發病前的聲音，以保持自我。但大部分在ALS後期，已經不能講話的病友，都沒有事先妥善保存好個人的錄音，最多只能找出有少量大約20分鐘的低品質語音，例如經過失真壓縮（MP3）、只保留低頻寬（8 kHz），或是具有強烈背景雜訊干擾等等，以致無法建構出適合ALS病友使用的個人化語音合成系統。針對以上困難，本論文嘗試使用通用語音合成系統搭配語音轉換演算法，並在前級加上語音雜訊消除（speech denoising），後級輔以超展頻模組（speech super-resolution）。以能容忍有背景雜訊的錄音，並能將低頻寬的合成語音加上高頻成分（16 kHz）。以盡量能從低品質語音，重建出接近ALS病友原音的高品質合成聲音。其中，speech denoising使用WaveNet，speech super-resolution則利用U-Net架構。並先以20小時的高品質（棚內錄音）教育電台語料庫，模擬出成對的高雜訊與乾淨語音語句，或是低頻寬與高頻寬語音，分別訓練WaveNet與U-Net模型，再用以處理病友的低品質語音錄音音檔。實驗結果顯示，訓練出來的WaveNet與U-Net模型，可以相當程度還原具雜訊或是低頻寬的教育電台語音檔。並能用來替ALS病友重建出高品質的個人化合成聲音。
起訖頁	152-166
關鍵詞	類神經網路、ALS、WaveNet
刊名	ROCLING論文集
期數	2019 (2019期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	基於深度類神經網路之多模式情感偵測初步探討
該期刊-下一篇	Bilingual Parallel Sentence Extraction from Comparable Corpora