廣播節目製作時通常只有收錄語音訊號,沒有保留相對應的節目內容詮釋資料(metadata),導致節目播出後,很難檢索節目內容,或是加以組織再利用。針對此問題,常用的方法是以語音辨認器,自動轉寫廣播節目內容,產生語音逐字稿,但是目前缺乏已標記好的廣播語音語料庫,因此無法訓練出適合轉寫廣播節目的語音辨識器。所以在本論文中,我們探討如何同時使用語音訊號特徵參數、辨認器辨認結果與語言模型參數,訓練一語音品質估算(Quality Estimation,QE)器,取代傳統只依賴語音辨認器的信心值估算(Confidence Measure),從源源不絕,但未標記的大量廣播語料中,挑選適合訓練語音辨認器的語料,進行半監督式聲學模型訓練,以提升轉寫廣播語料逐字稿的效能。實驗中以一不佳錄音品質NER-set1與一優良NER-set2之廣播節目測試語料集,測試種子語音辨認器與經半監督式訓練後,新的語音辨認器轉寫語音逐字稿的效能。實驗結果顯示經半監督式訓練後,新的語音辨認器可以把NER-set1與NER-set2的字元辨認錯誤率(CER)從原始種子模型的25%與14.24%,壓低至23.61%與13.24%。此外,若進一步改用進階語言模型,更可將CER再改善至23.25%與12.63%。 |