文件分類(Text Categorization)是指針對一組事先設定好的類別集,透過特徵選取的作法,將自然語言文件標上適當的主題類別。文件分類的應用範圍非常廣泛,包括:電子郵件與新聞過濾、資訊檢索、自動索引、以及詞彙語意解析等等。有關文件分類的研究,常由文件內容中抽取重要的特徵(feature)來代表這個文件,而特徵抽取的來源包羅萬象,可以簡單地從文件作者、出版機構著手,或是由蘊含豐富資訊的語言結構來作為抽取文件特徵的依據。先前的研究通常只由歸屬同類別的文件選出特徵集,很少將類別間是否具相關性納入考慮,而且當選完特徵後通常不再加以變動。這樣的作法對於線性分類或許是可行的,若是應用於階層式分類便顯得不恰當。本研究提出一個適用於階層式文件自動分類系統的特徵選取方法,經初步選完特徵集後,再依各特徵與相近類別間所具的分類意義做適當的調度。我們以『財經記事』的新聞資料進行分類實驗,結果驗證系統的強健性。另外,也得到下列幾個結論:(1)少的特徵數目有利於分類的進行,(2)階層式分類優於線性分類,(3)適當的特徵選取將更凸顯階層式分類的效能。 |