這裡“頻譜包絡”指的是振幅頻譜包絡(spectral magnitude envelope),一個例子如圖1裡較為平滑的曲線,它是由一個/bi/音音框(frame)的DFT(discrete Fourier transform)頻譜所估計出的。在一些語音處理的子領域中,會需要在兩條頻譜包絡曲線之間作內插,以求得兩者之間過渡的頻譜包絡。例如在使用單元串接之語音合成系統裡,為了避免在串接點發生頻譜不連續(spectral mismatch)的現象,就需要作頻譜包絡之內插,再依據內插出的頻譜包絡去產生語音信號;雖說過去有一些方法被提出來減輕串接點上頻譜不連續的問題,但那並未根本地解決問題。在歌聲合成的系統裡,由於可能的音高(pitch)、音長(duration)、音節之組合數量更為龐大,因此當從語料庫(corpus)選取合成單元來作串接時,串接點上幾乎都會發生音高軌跡(pitch contour)不連續、及頻譜的不連續,所以有需要在串接點附近作頻譜包絡內插。此外在語音辨識系統裡,一種可能的語者調適(speaker adaptation)方法是,將某兩語者的音素(phoneme)頻譜包絡作內插,用以逼近目前使用者的音素頻譜包絡。 |