本論文針對研究主題分析的問題,提出一系列以自然語言處理為基礎的技術,從學術領域中發表的論文資料中抽取重要的關鍵詞語,並將這些詞語依據彼此間共現關係進行叢集,以叢集所得到的詞語集合表示領域中重要的研究主題。研究主題分析在學術領域的應用上,可以提供研究人員一個清楚的梗概;在資訊檢索的過程中,則可以幫助使用者釐清資訊需求。我們並將所提出的方法應用到ROCLING研討會的論文資料上,抽取計算語言學領域的重要研究主題。結果顯示這個方法可以應用於國內學術領域的特殊環境,同時抽取出中文和英文的關鍵詞語,所得到的詞語叢集結果也可以表示領域中重要的研究主題。這樣的結果初步的驗證了本論文所提出方法的可行性。從研究結果中,我們也發現計算語言學研究與實務應用有密切的關係,抽取出來的詞語叢集中有許多與機器翻譯、語音處理和資訊檢索相關,在語言的計算模式上,語法模式與剖析、斷詞和統計式語言模型的建立則是國內計算語言學家所關心的主題。 |