月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
中文計算語言學期刊 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
適合漸凍人使用之語音轉換系統初步研究
並列篇名
Deep Neural-Network Bandwidth Extension and Denoising Voice Conversion System for ALS Patients
作者 黃百弘廖元甫鄧廣豐Matúš Pleva (Matúš Pleva)Daniel Hládek (Daniel Hladek)
中文摘要
漸凍人症(肌萎縮性脊隨側索硬化症,Amyotrophic lateral sclerosis,ALS)為一種神經退化性疾病,這種疾病目前還沒有治癒的方法,並會讓漸凍人慢慢失去說話能力,最終導致無法利用語音與人溝通,而失去自我認同。因此,我們需要為漸凍人建立適合其使用之語音溝通輔具(voice output communication aids, VOCAs),尤其是讓其能具有個人化的合成語音,即病友發病前的聲音,以保持自我。但大部分在ALS後期,已經不能講話的病友,都沒有事先妥善保存好個人的錄音,最多只能找出有少量大約20分鐘的低品質語音,例如經過失真壓縮(MP3)、只保留低頻寬(8 kHz),或是具有強烈背景雜訊干擾等等,以致無法建構出適合ALS病友使用的個人化語音合成系統。針對以上困難,本論文嘗試使用通用語音合成系統搭配語音轉換演算法,並在前級加上語音雜訊消除(speech denoising),後級輔以超展頻模組(speech super-resolution)。以能容忍有背景雜訊的錄音,並能將低頻寬的合成語音加上高頻成分(16 kHz)。以盡量能從低品質語音,重建出接近ALS病友原音的高品質合成聲音。其中,speech denoising使用WaveNet,speech super-resolution則利用U-Net架構。並先以20小時的高品質(棚內錄音)教育電台語料庫,模擬出成對的高雜訊與乾淨語音語句,或是低頻寬與高頻寬語音,分別訓練WaveNet與U-Net模型,再用以處理病友的低品質語音錄音音檔。實驗結果顯示,訓練出來的WaveNet與U-Net模型,可以相當程度還原具雜訊或是低頻寬的教育電台語音檔。並能用來替ALS病友重建出高品質的個人化合成聲音。
英文摘要
ALS (Amyotrophic lateral sclerosis) is a neurodegenerative disease. There is no cure for this disease, and it will make the ALS patients eventually lose their ability to use their own voice to communicate with others. Therefore, a personalized voice output communication aids (VOCAs) is essential for ALS patients to improve their daily life. However, most of the ALS patients have not properly reserved their personal recordings in the early stage of the disease. Usually, only few low-quality speech recordings, such as distortion compressed, narrow band (8 kHz), or noisy speech, are available for developing their own personalized VOCAs. In order to reconstruct high-quality synthetic sounds close to the original sound of ALS patients, voice conversion with speech denoising and bandwidth expansion capacities were proposed in this paper. Here, a front-end WaveNet- and a backend U-Net-based speech enhancement and super-resolution neural networks, respectively, were constructed and integrated with the backbone voice conversion system. The experimental results showed that the WaveNet and U-Net models can restore the noisy and narrowband speech, respectively. Therefore, it is promising to be applied to reconstruct high-quality personalized VOCAs for ALS patients.
起訖頁 37-52
關鍵詞 類神經網路ALSWaveNetNeural networkALSWaveNet
刊名 中文計算語言學期刊  
期數 201912 (24:2期)
出版單位 中華民國計算語言學學會
該期刊-上一篇 基於 BERT 的強健性抽取式摘要法
該期刊-下一篇 即時中文語音合成系統
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄