主題語言模型於大詞彙連續語音辨識之研究

陳冠宇; 陳柏琳

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	主題語言模型於大詞彙連續語音辨識之研究
並列篇名	On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition
作者	陳冠宇、陳柏琳
中文摘要	本論文研究使用主題資訊之語言模型（Language Model）。當語言模型用於大詞彙連續語音辨識時，其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能性。傳統的N連（N-gram）語言模型容易受限於模型參數過多的問題，僅能用來擷取短距離的詞彙接連資訊，並不能考慮完整的歷史詞序列之語意資訊。因此，近十幾年來許多研究學者陸續提出各式主題模型（Topic Model），包括討論文件與詞之關係的機率式潛藏語意分析（Probabilistic Latent Semantic Analysis, PLSA）和潛藏狄利克里分配（Latent Dirichlet Allocation, LDA），以及討論詞虛擬文件與詞關係的詞主題模型（Word Topic Model, WTM）。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者詞虛擬文件與詞之間的關係，用以擷取出歷史詞序列長距離的潛藏語意資訊。本論文提出一種新的主題模型，稱之為詞相鄰模型（Word Vicinity Model, WVM），它直接地基於語言中詞與詞相互關聯資訊以建構一個機率式的潛藏主題空間，並且透過線性模型結合的方式建立歷史詞序列之主題模型來預測下一個候選詞出現的可能性，藉此輔助傳統N連語言模型。實驗結果顯示本論文所提出的詞相鄰模型不僅相較大部分主題模型具有較低的模型參數量，同時能對於僅使用三連語言模型的基礎大詞彙連續語音辨識系統也有相當程度的語音辨識率提升。
起訖頁	179-193
關鍵詞	主題模型、機率式潛藏語意分析、潛藏狄利克里分配、詞主題模型、詞相鄰模型、大詞彙連續語音辨識
刊名	ROCLING論文集
期數	2009 (2009期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	電腦輔助句子重組詴題編製
該期刊-下一篇	Improving Translation Fluency with Search-Based Decoding and a Monolingual Statistical Machine Translation Model for Automatic Post-Editing