在國語語音辨認的語言解碼方法(linguistic decoding approach)中,字雙連語言模型(character bigram)和詞雙連語言模型(word bigram)是兩種最常被使用的方法。其中,詞雙連語言模型在描述語言現象上有較字雙連語言模型強的能力;然而若詞彙量較大時,它所需要估計的參數卻遠較字雙連語言模型多。因此若考慮在大詞彙、無限文句的國語語音辨認應用上,此二者皆有其適用上的限制。本文乃提出一個詞雙連語言模型(word-class bigram)的語言解碼方法,這個方法是以對詞分群來大幅縮減參數量的大小,且又能接近詞雙連語言模型的辨認效果。分群方法是根據國語特殊的構詞特性來分群,比起其他西文常使用依據語法(syntactical)或語意訊息(semantical information)的分群方法不但計算簡單,且同樣具有分群的效用,而且詞群並不必須事先訓練或做詞類標記(part-of-speech tagging)即可決定,同時此法對新增詞及低頻率的詞也具某種程度的平滑(smoothing)能力。此外為達成即時計算的要求,我們針對構詞及格狀詞搜尋提出二項技術來加快它們的速度。目前這個方法已實際應用在國語語音辨認上,實驗結果證實這個方法是相當實用且有效的。 |