中文摘要 |
以生物特徵作為辨識基礎的研究已經有長達數十年的歷史,包含人臉、語音和指紋。其中聲音因具有取得容易、非侵入性、運算量少、輸入具有便利性等優點,語者辨識一直是近年來熱門的主題。語者辨識利用語者語音的特性來辨識使用者身份,大致上的研究方向分成語音特徵擷取以及分類演算法兩部分,其中以分類演算法的研究最多,包含的層面也最廣,包括語者模型的建立、分類機制、因為周邊環境的影響所需的補償辦法等研究。目前來說高斯混和模型(Gaussian Mixture Model, GMM)和支持向量機(Support Vector Machine, SVM)是經典的分類方法。特徵參數方面,會將一段語音切割成數個音框,音框代表此語者在短時間內的發聲特徵,幾種常見的有梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients, MFCC)、感知線性預測係數(Perceptual Linear Prediction Coefficients, PLPC)等。 |