月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
ROCLING論文集 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
以三元組損失微調時延神經網路語者嵌入函數之語音辨識系統
並列篇名
Time Delay Neural Network-based Speaker Embedding Function Fine-tuned with Triplet Loss for Distance-based Speaker Recognition
作者 葉致廷王伯晉張蘇瑜陳嘉平蕭善文詹博丞呂仲理
中文摘要
本研究工作提出以語者驗證的x向量(x-vector)架構為基礎,建立一套語者辨識系統。系統訓練時,我們提出利用三元組損失(triplat loss)來拉開不同語者語句嵌入向量之間的距離。系統辨識時,則是直接使用歐式距離作為註冊語者與測試音檔之間相似度的量測,並以最小距離的註冊語者為辨識結果。我們以名人聲音(VoxCeleb)語者辨識資料集評估所提出的系統,其中測試資料集包含1251位名人的語音資料。我們所提出的系統單一輸出(top-1)的辨識正確率為59.57%,前五名個輸出(top-5)的辨識正確率則可以達到80.32%。
英文摘要
In this research work, we build a speaker recognition system based on the x-vector framework for speaker verification. During training, we propose to use the triplet loss to increase the distance between the embedding vectors from different speakers in high-dimensional space. During recognition, we use the European distance between test-utterance embedding vector and enrolled-speaker embedding vector for similarity measure, thus predicting the enrolled speaker with the minimum distance. The proposed system is evaluated with VoxCeleb speaker recognition dataset. The test set consists of utterances from 1,251 test speakers. The proposed model achieves the top-1 recognition accuracy of 59.57% and the top-5 accuracy of 80.32%.
起訖頁 310-324
關鍵詞 時延神經網路語者辨識三元組損失TDNNSpeaker RecognitionTriplet Loss
刊名 ROCLING論文集  
期數 2019 (2019期)
出版單位 中華民國計算語言學學會
該期刊-上一篇 Influences of Prosodic Feature Replacement on the Perceived Singing Voice Identity
該期刊-下一篇 Building of children speech corpus for improving automatic subtitling services
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄