由於網際網路的蓬勃發展與海量資料時代的來臨,近幾年來自動摘要(Automatic Summarization)已儼然成為一項熱門的研究議題。節錄式(Extractive)自動摘要是根據事先定義的摘要比例,從文字文件(Text Documents)或語音文件(Spoken Documents)中選取一些能夠代表原始文件主旨或主題的重要語句當作摘要。在相關研究中,使用語言模型(Language Modeling)結合庫爾貝克-萊伯勒離散度(Kullback-Leibler Divergence)的架構來挑選重要語句之方法,已初步地被驗證在文字與語音文件的自動摘要任務上有不錯的成果。基於此架構,本論文探究語句明確度(Clarity)資訊對於語音文件摘要任務之影響性,並進一步地藉由明確度的輔助來重新詮釋如何能在自動摘要任務中適當地挑選重要且具代表性的語句。此外,本論文亦針對語句模型的調適方法進行研究;在運用關聯性(Relevance)的概念下,嘗試藉由每一語句各自的關聯性資訊,重新估測並建立語句的語言模型,使其得以更精準地代表語句的語意內容,並增進自動摘要之效能。本論文的語音文件摘要實驗語料是採用公視廣播新聞(MATBN);實驗結果顯示,相較於其它現有的非監督式摘要方法,我們所發展的新穎式摘要方法能提供明顯的效能改善。 |