語者驗證的目的是以語音訊號來驗證特定語者的身份(Identity),此項研究在近年的智慧生活環境已成為一個重要的研究議題。不論是在門禁系統,亦或是搜尋、偵測特定語者語音等,都被廣泛應用。語者驗證又分為文字特定模式(Test-dependent Mode)與文字不特定模式(Text-independent Mode)兩類,前者的好處為已知較多語音資訊,可以大幅改善系統的驗證效能,但實際的應用限制較多,後者因為是隨機的語音訊號,資訊量較少,相對驗證效果不如前者,但也因為限制較少,應用層面相對較大。在本研究中,我們著重於文字不特定模式的語者驗證。傳統的語者驗證系統是使用高斯混合模型的架構,其作法是訓練一套Universal Background Model(UBM)高斯混合模型(Gaussian Mixture Model,GMM),UBM-GMM。接著利用每一位語者的語音訊號,以及最大後驗概率法則(Maximum A Posteriori,MAP)對UBM-GMM作調整以得到每位語者專屬模型,接著再對測試語句利用UBM-GMM及Speaker-specific GMM分別計算似然值。另外,還有將GMM抽取Mean串成Supervector再使用Support Vector Machine(SVM)作辨識的方法。 |