自動語者辨識(Automatic Speaker Recognition)研究在「語音處理」(Speech Processing)與「生物測定」(Biometrics)領域中已有數十年歷史,其目的在於判斷一段語音是由誰所說(稱為「語者識別」,Speaker Identification,SID)或是否為某人所說(稱為「語者確認」,Speaker Verification)。自1996年起,美國國家標準與技術研究院(National Institute of Standard and Technology,NIST)舉辦了無數次的語音辨識相關技術評比(Benchmark Tests),評比項目也隨著技術的發展而不斷地更新,但其中「語者辨識」評比自1996年起迄今仍持續進行,顯示這項研究議題的重要性與可發展性。近幾年的語者辨識評比著重於對話語音中的語者偵測判斷(Speaker Detection),並與另一項評比「Rich Transcription」中的子項目相結合成一個特別的研究議題,稱為「語者分段標記」(Speaker Diarization),又稱「Who Spoke When」,其目標是在一段錄音資料中區分出不同說話者的說話區段,並一一標示出來。這項工作主要涉及三個步驟:1)將音訊自動切割成為很多小區段,目標是每一小區段只包含一個說話者;2)對這些小區段進行自動分群,希望每一群集都只包含一個說話者的聲音;3)判別每一群集的性別,並給予一個說話者識別身分。 |