語音長久以來是人與人之間最自然且最方便的溝通方式。隨著電子數位科技的蓬勃發展以及無線通訊與網際網路的創新普及,傳統的桌上型電腦不再是人們唯一主要的資訊存取平台,有可能取而代之的是各式各樣的手攜式設備(如PDA、Mobile Phone、Tablet PC等)以及更多的行動載具與家電產品,這些設備將變成是可以計算、通訊與上網的智慧型設備,而且朝輕薄短小的趨勢演進發展。同時,將不是每種設備都具有螢幕、鍵盤和滑鼠等這些人們習以為常的輸出入裝置;就算是有,它們也將不若過去在桌上型電腦使用時那樣地方便。於是「語音」這種人類最自然且最容易使用的溝通媒介,可能會在未來扮演著人類與各式智慧型設備間最主要的人機介面,徹底改變人類長久以來與其之互動方式,進而擴展人類對各式智慧型設備的使用層面與資訊存取的效率。另一方面,日常生活中可以存取與使用的多媒體影音資訊愈來愈多,例如廣播電視節目、語音信件、演講錄影和數位典藏等。這些多媒體資訊可以從網路上大量地取得,已經成為傳統文字資訊外社會大眾廣泛使用的資訊來源。顯而易見的是,在上述的絕大部分多媒體資訊中,語音可以說是最具語意的主要內涵之一,當播放出多媒體的語音資訊或是顯示出對應的正確轉寫文字時,我們就可以大概地瞭解其中所要傳達的主題或概念。因此,語音辨識技術對多媒體資訊處理也扮演著相當重要的角色,近年來在國際上有相當多從事多媒體語音內涵自動轉寫的研究被發表,其中常以廣播新聞、電話交談式語音、演講與口述歷史典藏的大詞彙連續語音辨識的研究為主。 |