| 中文摘要 |
人機介面的發展歷程簡而言之就是從人去適應機器(Machine-centered)到機器不斷去適應人(Human-centered)的過程,從最早期的以鍵盤作為互動介面的命令列介面(Command-line Interface, CLI),到1963年由Dr. Douglas Englebart發明滑鼠,以及Xerox、Apple、Microsoft等公司在圖形介面的成就,發展到現在最常用的圖形化介面(Graphic User Interface, GUI),再到目前逐漸演化中的自然化介面(Natural User Interface, NUI),結合了人的感知,如語音(Speech)、手寫(Hand-writing)、眼球追蹤(Eye-tracking)、手勢(Gesture)、表情(Emotion)等,而機器也不再侷限於俗稱的電腦,包含愈來愈多有計算的功能的裝置,同時這些裝置從也不再侷限於靜止狀態,不斷的有各種移動式裝置(Mobile Device)推陳出新,例如Notebook、Tablet PC、PDA、Cellular Phone等。在這新一代的人機介面(NUI)中,與機器互動的主導權逐漸轉移到人的手中,而其中語音人機介面(Voice User Interface, VUI)無疑是被高度期許的,在這幾年中,語音人機介面從被商業上的高度期待到失望,再到目前被成功的應用於某些地方(Specialty Niches),例如聽寫機在醫學業、法律業及倉儲業等的應用,簡單的對話系統在電信服務上的應用,以及行動裝置或資訊家電的應用如手機聲控撥號等。圖一顯示各種不同的人機介面技術目前的成熟度,以VUI為例,Telephony的應用算是比較成熟的,而行動裝置的應用正慢慢的走向高峰,至於PC端的應用目前在谷底;以技術的角度來看,語音合成算是相對成熟的技術,而對話系統的技術成熟度還在很初期的階段。在這篇文章中,我們嘗試用不同的角度來看如何讓語音人機介面走向實用性,特別是在輸入(語音辨識)這端,希望這些觀點能激發出更多好的想法,不管在技術及應用上給這個領域更多的活水。 |