在網際網路蓬勃發展的今天,資訊的產生與傳播也越來越快速與多元化,為了讓使用者能在浩瀚無涯的網際網路上快速有效的尋找所需要的資訊,文件分類是解決的方法之一。然而耗費人力的人工分類已經無法滿足現實情況,因此一種良好分類機制是不可或缺。本文利用已有的分類架構與分類說明,進行統計式關鍵詞過濾,最後加上回授機制,期能使新聞分類更有效率。在這次實驗中,為了設計出有效的自動分類系統,我們針對文件分類的重點與特性進行實驗與討論,發現:1.分類架構的重要性:需要符合分類資料的領域或類型。2.關鍵詞的取法:雙連字(Overlapping Bigram)比斷詞效果好。3.關鍵詞所在的位置越前面,與分類的相關強度越高。4.關鍵詞利用文件Df值與分類類別Df值進行過濾,得到好的分類關鍵詞。最後我們討論回授機制,利用機率統計式的單字特徵關鍵詞進行回授關鍵詞的過濾,並加入原本的分類特徵詞中。使得召回率大幅上升。證明回授機制有助於分類效率的提升。 |