中文摘要 |
在近十年來所發展出的自動語音辨識(automatic speech recognition, ASR)技術中,仍有許多研究者嘗試僅藉由前端處理來產生具有鑑別性的語音特徵,而獨立於後端模型訓練與分類器特性。本論文即在此思維下提出嶄新的鑑別式特徵轉換方法,稱為普遍化相似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利用相似度比率檢驗(likelihood ratio test)的概念尋求一個維度較低的特徵空間。在此子空間中,我們不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩陣可被彈性地視為相異,並且在分類上,因著我們也將類別間最混淆之情況(由虛無假設(null hypothesis)所描述)的發生率降至最低,而達到有助於分類正確率提升的效果。同時,我們也證明了傳統的線性鑑別分析(linear discriminant analysis, LDA)與有名的異方差性線性鑑別分析(heteroscedastic linear discriminant analysis, HLDA)可被視為我們所提出之普遍化相似度比率鑑別分析(GLRDA)的兩種特例。此外,為了增進語音特徵的強健性,我們所提出的方法更可進一步地與辨識器所提供的實際混淆資訊結合,而獲得在中文大詞彙連續語音辨識的實驗中,相較於以上兩種傳統方法更高的辨識正確率。 |