中文摘要 |
為慶祝登月計劃五十週年,德州大學達拉斯分校(UTDallas)將登月任務中,所有太空人與任務中心間的通訊對話錄音進行數位化,發行Fearless Steps Corpus語料,並舉辦Fearless Steps Challenge競賽,希望能增進各種語音處理相關技術發展。本論文即針對其中的語音情緒偵測任務,進行初步探討。主要想法是同時考慮語音訊號中包含的聲學與語意資訊,提出基於深度類神經網路之多模式語音情緒偵測模型,用以偵測語音訊號中傳達的情緒狀態。實際做法包括(1)利用捲積神經網絡(Convolutional Neural Network, CNN),從聲學頻譜自動求取情緒特徵參數,與(2)以雙向編碼變換器(Bidirectional Encoder Representation from Transformers, BERT),求取語音逐字稿的文字語意特徵參數。再將此兩類特徵參數向量融合,以強化系統的情緒狀態偵測效能。最後由正式比賽結果發現,我們的系統的情緒狀態偵測正確率達到73.11%,在所有隊伍提交中的20個結果中,排第三名,不但超越主辦單位提供的基準參考系統(49.75%),並只差第一名(74.07)不到1%。 |