資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊。然而資訊擷取的結果會有錯誤情況發生,若單只依靠人工的方式進行錯誤的檢查及更正,將會是耗費大量人力及時間的工作。在本論文中,我們提出一種字串特徵為主的錯誤偵測方法,以資料描述的概念進行字串外表特徵的捕捉與轉換,再透過C4.5或SVM機器學習分類方法,自動建構適當的二元資料分類模型,進而達到辨別正確與錯誤資料的目的。實驗結果顯示,本研究所提出的錯誤偵測方法,可以有效偵測出資訊擷取成果中不正確的值組,確保高品質的資訊擷取成果產出,促使資訊擷取技術更廣泛的實際應用。 |