中文摘要 |
本論文的主要研究為使用語音辨識及結合語音評分,對未整理的台語語料進行初步的篩選。藉由機器先過濾掉有問題的音檔,如錄音音量過小、太多雜訊、錄音音檔內容有誤等情形,取代傳統人工聽測費時的做法。本論文如圖一所示,可分為三個階段,分別是:「基礎聲學模型訓練」、「語音評分與錯誤原因標記」及「效能評估」。於基礎聲學模型訓練階段,以長庚大學提供的台語語料ForSD(Formosa Speech Database)為材料,使用隱藏式馬可夫模型(Hidden Markov Model, HMM)、梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCCs)和對數能量(Log energy)做為語音特徵進行聲學模型的訓練。聲學模型單位分別為:單音素聲學模型(Monophone acoustic model)、音節內右相關雙連音素聲學模型(Biphone acoustic model)及音節內左右相關三連音素聲學模型(Triphone acoustic model),其針對測試語料進行自由音節解碼辨識網路(Free syllable decoding)的音節辨識率(Syllable accuracy)最佳結果分別為:27.20%、43.28%、45.93%。其中左右相關三連音素聲學模型的辨識率最佳,因此我們選擇此模型進行第二階段的實驗。 |