本論文針對主題抽取的問題,提出一系列以自然語言處理為基礎的技術,應用
這些技術可以從學術論文抽取重要的術語,並將這些術語依據彼此間的共現關
係進行叢集,以叢集所得到的術語集合表示領域中重要的主題,提供研究人員
學術領域的梗概並釐清他們的資訊需求。我們將所提出的方法應用到
ROCLING 研討會的論文資料上,結果顯示這個方法可以同時抽取出計算語言
學領域的中文和英文術語,所得到的術語叢集結果也可以表示領域中重要的主
題。這個初步的研究驗證了本論文所提出方法的可行性。重要的主題包括機器
翻譯、語音處理、資訊檢索、語法模式與剖析、斷詞和統計式語言模型等等。
從研究結果中,我們也發現計算語言學研究與實務應用有密切的關係。 |