簡便而好用的人機介面是資訊研究的一個重要課題,鍵盤乃是針對歐美拼音文字而設計的,對於中文這種方塊文字,若非受過專業輸入訓練是很難普遍地利用鍵盤來做中文輸入,所以發展國語聽寫機技術對資訊中文化是有十分重大的影響。而在聽寫機方面的研究已行之多年,在國外已完成的系統有Hearsay II、Harpy、BBN、TINA及Dragon等系統,在國內則有台大與中研院聯合開發的“金聲系列”[1][2]以及成功大學所發展的“音中仙巨量詞彙輸入法”。本文即是對於語音辨認後處理之自然語言處理提出方法,使中文的語音輸入技術在理論上及實用上都能兼顧的考量下發展,在本文中短語分析規則主要有兩類:1.單一詞未知短語規則:指短語規則中,有一未知詞而其它詞已知稱之。例如“姓氏+校長”為一短語規則其中校長為已知,姓氏為未知。此類法則乃針對詞庫中未建之詞必需加以簡單組合之詞,利用大量語料庫做統計,再依據統計的輸出做為辨認系統構詞的法則權重,以解決斷詞含混與詞庫不足的問題。2.多詞未知短語規則:指短語規則中有多詞未知,例如“某某市某某路某某巷”其中市、路、巷為已知,但縣市名稱、路名及巷名三個未知。此類法則所處理的主要對象是數量詞和住址或複合詞可以用狀態轉移表示的詞組。 |