語篇分析是文本理解中一項不可缺乏的工作,藉以釐清文章的論題或邏輯結構。本論文提出以語料為主的語篇分析方法,針對並列、承接、遞進、選擇、轉折、因果、條件、解證、目的等九種常見語篇類別,進行表層特徵收集及擴展,並制定標記規則,建立有效的自動標記程序。我們使用中研院平衡語料庫3.0版中的報導、傳記日記、散文、信函、評論、說明手冊等文類,共7265篇作為探勘語料,進行線索詞、連續詞性序列、特殊標點符號等語篇特徵之探勘。在實驗中,我們使用100篇平均字數為1500字的報紙社論進行效能評估,在句內的語篇標記部份,正確率可達到91%,召回率是95%,篩檢正確率是98%。另外,在句間的標記部分,正確率可達到86%,召回率是93%,篩檢正確率是95%。我們相信此語篇標記的研究,有助於自動問答、作文評分、閱讀測驗、摘要和簡報系統等應用。 |