在進入文章的主題之前,我想先談一些個人的經驗,因為這樣也許能讓大家更瞭解接下來要說明的內容,以及為什麼要談這個題目。雖然在博士班的時候,做的題目是「中文語音合成系統」,但在畢業後不久,便到聲碩科技股份有限公司工作,主要的產品「說亦通」是一個語音輸入軟體。當時的「說亦通」其實是台大李琳山教授團隊所研發出來的「金聲三號」的一個商業化的版本,運算速度相對較快,需要的記憶體較少,用來訓練的語料庫更多,使用介面更方便等等。這樣的軟體,在當時算是一個全新的商品,市場上也只有IBM的ViaVoice是主要的競爭對手。由於中文的鍵盤輸入比較複雜,不管是使用注音、倉頡或是其他各種的輸入法,都需要有長時間的練習,才能有較快的速度。因此,中文語音輸入法在當是被視為是一個殺手級的應用,大家十分看好這樣商品的發展,在市場上也引起了一些注意。為了推廣「說亦通」,聲碩到各個資訊展覽的會場去擺攤子,同時訓練了一些業務人員,進行示範,很多人看了示範,覺得非常神奇,也十分實用,就當場買了回去。但是「說亦通」的銷售量並沒有因此逐漸上升,調查一下原因,買回去使用的人,大部分覺得辨識率不好,跟展覽會場看到的差很多,有些人甚至有受騙、上當的感覺。想想也對,以那些業務人員來說,他們也是要經過一段時間的訓練,才能有穩定的辨識率,一般人可能連麥克風都沒戴好,說的時候,更不會注意到要保持適當的速度,如何能有我們在實驗室控制環境下所測試出來的數據呢?為了解決這個問題,聲碩提供了一個小時到府訓練的課程,會使用這樣訓練課程的,大部分是不太懂電腦的人,年紀也偏大,所以還是有很多人即使經過訓練、調整,辨識效果還是很差。而通常如果你希望使用者調整一下說話的速度,或者是稍微注意一下發音,得到的反應總是「我說話就是ㄗㄜˋㄍㄛ․樣子,是你們的系統太爛了。」這時候你還能說什麼呢?承認吧!現階段語音辨識所使用的語料與語言模型,是沒有辦法解決這樣的問題的。 |