中文摘要 |
語者辨認系統在公共電話網路中,通常會遇到未知不匹配話筒和辨認語料不足的問題。為增進語者辨認系統對未知話筒之強健性,與有效利用有限語料,我們提出一融合下層聲學與上層韻律訊息之架構,首先利用(1)最大相似先驗知識內插法(maximum likelihood-a priori knowledge interpolation,ML-AKI)方法估計與補償話筒聲學特性,並以(2)最小錯誤鑑別式法則(Minimum Classification Error, MCE)訓練語者模型,以拉大不同語者間聲學模型的距離,與利用(3)韻律訊息特徵分析(eigen-prosody analysis, EPA)為輔助,量測不同語者間的韻律模型距離,最後利用(4)線性迴歸的方式融合聲學與韻律模型分數得到最後的辨識結果。實驗使用Handset TIMIT(HTIMIT)語料庫,以leave-one-out方式輪流使用九種不同的話筒當作未知話筒,驗證所提出之方法。實驗結果顯示,在有限的訓練與辨認語料情形下,若以傳統maximum a priori probability adapted Gaussian mixture model/cepstral mean subtraction(MAP-GMM/CMS)的方法當作baseline,其平均語者辨認率可達60.2%。但若結合ML-AKI,MCE,EPA與MAP-GMM/CMS方法,則平均辨認率可提升到79.3%。而若只觀察未知話筒部份,則平均語者辨識率亦可由58.3%提升到74.6%,因此可知所提出之方法無論對已知話筒和未知話筒皆能有效改善系統之強健性。 |