中文摘要 |
現實生活中常有許多聲音事件會一起發生,而聲音會重疊在一起,使得傳統(Gaussian Mixture Model ,GMM)方法很難準確辨認這些重疊的聲音事件。因此,本文提出以深層類神經網絡(Deep Neural Network, DNN)來檢測這些互相干擾的聲音事件,並據此參加Detection and Classification of Acoustic Scenes and Events 2016(DCASE2016)比賽,DCASE 2016評比提供的音訊資料,內有兩種場景,包括居家與戶外,共有18種含有背景的聲音事件。實驗結果顯示使用DNN與傳統GMM比較,其場景偵測錯誤率可從0.91降至0.86、F1分數並從23.4%提升到26.8%。此外針對室內環境的音訊事件偵測,錯誤率可從1.06降至0.86,F1分數並從8.9%提升到27.7%。最後在戶外環境的音訊偵測情境中,錯誤率可從1.03降至0.96,F1分數從17.6%降到12.8%。因為DACSE2016比賽主要看錯誤率,所以整體而言DNN方法還是明顯比GMM方法好。 |