中文摘要 |
隨著網路科技的蓬勃發展,大量含有語音資訊的多媒體內容(像是電視新聞、課程演講、會議錄音等)快速地傳遞並分享於全球各地,進而促使自動語音文件摘要成為一項重要的研究議題。其中,長久以來一直最為被廣泛地探究的是節錄式語音文件摘要(Extractive Spoken Document Summarization);其目標在於根據一定的摘要比例,從語音文件中選取重要語句並組合成摘要,以期能夠扼要的表示語音文件主要的主題或語意資訊。藉此,使用者能迅速地瀏覽大量多媒體內容並能充分理解原始語音文件的主題或語意資訊。另一方面,表示法學習(Representation Learning)是近期相當熱門的一個研究議題,多數的研究成果也證明了這項技術在許多自然語言處理(Natural Language Proceeding, NLP)的相關任務上,可以進一步地獲得優良的成效。有鑑於此,本論文首先探討使用不同的詞表示法(Word Representations)及語句表示法(Sentence Representations),包括了連續型詞袋模型(Continuous Bag-of-Words, CBOW)、跳躍式模型(Skip-Gram, SG)、分散式儲存模型(Distributed Memory Model of Paragraph Vector, PV-DM)以及分散式詞袋模型(Distributed Bag-of-Words of Paragraph Vector, PV-DBOW),於節錄式中文廣播新聞語音文件摘要之應用。 |