中文摘要 |
語音長久以來一直是人跟人之間最自然的溝通方式;它在未來將是人與電腦等機器間溝通的一個不可或缺的重要工具。近六十年來,自動語音辨識的研究活動十分活躍,並且已取得了巨大的成功。在研究初期,語音辨識器只能在安靜的環境中識別一個單獨的詞彙。1980年代,以高斯混合模型-隱藏式馬可夫模型(Gaussian mixture model-hidden Markov model, GMM-HMM)做為聲學模型使得語音辨識有能力進行大詞彙量連續語音識別。由於GMM-HMM的架構易於訓練模型和進行聲學解碼,因此在近二十年來GMM-HMM是自動語音辨識系統的主流聲學模型,聲學模型的研究主要集中在以更好的模型結構與訓練演算法改良GMM-HMM。在過去的五年內,我們看見了深層學習架構和技術在語音領域的突破性的發展和卓越的成效。 |