近年來,i-vector搭配PLDA(Probability Linear Discriminant Analysis)的系統已經在自動語者分段標記(Speaker Diarization)的研究上獲得了很好的結果。不過,由於ivector需要由較長的音訊片段抽取出來才具有較佳的語者特性,所以較無法有效地處理時間極短的語句區段。為此,本論文提出一個新的自動語者分段標記框架:先由K平均(K-means)演算法得到初步的自動語者分段標記結果,並據此建立初步語者模型,再配合利用GMM-HMM(Gaussian Mixture Models-Hidden Markov Models)進行強制對位(Forced Alignment)以及語者分群(Speaker Clustering)來進行自動語者分段標記。從實驗上我們可以發現,雖然單獨利用GMM-HMM語者分群並未比使用GMM-HMM強制對位所得到的召回率(Recall)以及精準率(Precision)來得好,但是利用GMM-HMM語者分群的結果再重新進行GMM-HMM強制對位卻可以得到較好的召回率以及精準率,故由GMM-HMM語者分群以得到更細小的語者說話區段對自動語者分段標記的問題是有幫助的。此外,這篇論文也探討針對不同時間長度的音訊片段對自動語者分段標記的影響。 |