中文摘要 |
近幾年來,基於語言模型化(Language Modeling, LM)架構之摘要方法已初步在節錄式語音摘要任務上展現具競爭性的效能。在此架構下,對於被摘要文件每一句候選語句之語句模型的建立,可透過虛擬相關回饋(Pseudo Relevance Feedback, PRF)策略來獲得較可靠的參數估測。一般來說,虛擬相關回饋在執行上可分為兩個階段:1)相關資訊(或者說虛擬相關文件)的選取;2)語句模型化與參數重新估測。首先,有別於現有基於語言模型化架構之摘要方法都聚焦在語句模型參數的重新估測,本論文深入探討與應用各種適合於節錄式語音文件摘要的虛擬相關文件選取技術,用以強化語句模型的參數估測。再者,本論文更進一步地考量使用每一語句的非相關性(Non-relevance)資訊對於虛擬相關文件選取的影響。同時,我們亦額外嘗試基於重疊分群(Overlapped Clustering)概念來有效地選取重要的虛擬相關文件。最後,本論文探索使用三混合模型(Tri-Mixture Model)來表示每一語句,期盼其能更精確地表示一句語句之獨特詞彙使用和語意相關資訊。本論文的語音文件摘要實驗語料是採用公開的公視廣播新聞(MATBN);實驗結果顯示,相較於其它現有虛擬相關文件選取技術,我們所發展的虛擬相關文件選取技術能提供相當不錯的摘要效能改善。 |