當我們透過聲音與他人相互溝通時,我們聽到的不只是對方所要表達的內容,同時也接收到對方所發出的高低起伏的情緒、抑揚頓挫的口氣、以及輕重緩急的語流,因此,往往同一句話、隨著說話人的「語音表情」,會讓我們感到對方說得興高采烈、或義憤填膺、或語氣堅定、或感傷悲戚,這裡所謂的「語音表情」,指的就是語音的韻律變化(prosodic variations)。一般所謂的韻律變化是指人們利用(1)音量的大小(energy levels)、(2)音高的高低(pitch contours)、(3)說話速度的快慢(speaking rates)、以及(4)停頓的長短(pause durations)等四個韻律參數,來建構語音的表情,藉以強化語者本人所要表現的語意、情感、重點、立場等等。一個人說話若缺乏了語音的韻律變化,將會說出聽起來單調、貧乏的聲音,而無法引起他人的注意,因此也就無法達到溝通的目標。因此,從語音合成的角度來看,若要系統發出讓人耳聽起來流暢、自然、引人注意的話語,勢必要加入韻律訊息,才能發展優質的語音合成系統;反過來說,站在語音辨認的立場,韻律訊息的運用,能增加語音內容的瞭解、提高系統辨識的能力,因此,對一特定語言韻律訊息的掌握,有助於各項語音處理技術的發展,而本文的目的即在介紹語音韻律的產生和變化,我們將在第2節介紹語音產生的過程,以來說明影響韻律的因素以及產生的機制;第3節介紹國語語音韻律的特性,提供讀者簡單易懂的一些概念;接著我們在第4節介紹國語文字轉語音技術的核心「國語韻律的產生」,第5節則介紹目前建構國語韻律模型的方法,最後筆者將討論一些國語韻律模型未來的研究方向。 |