廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用Convolutional Neural Network(CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新聞類與不同性質的談話類節目共14個,經人工標注後,獲得總長度共約60小時的音檔,並用來訓練與測試CNN和傳統Gaussian Mixture Model(GMM)的效能。實驗結果顯示以CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其它音訊事件等的錯誤率(equal error rates,EER),分別為2.27%、12.52%與9.51%,皆低於傳統以GMM搭配Mel-Frequency Cepstral Coefficients(MFCCs)的3.65%、15.68%與13.25%。 |