由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用ForSDAT01華台雙語語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的聲學單位所訓練出的辨識器有較高的辨識效果。 |