階層式文件自動分類之特徵選取研究

柯淑津; 陳振南

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	階層式文件自動分類之特徵選取研究
作者	柯淑津、陳振南
中文摘要	文件分類（Text Categorization）是指針對一組事先設定好的類別集，透過特徵選取的作法，將自然語言文件標上適當的主題類別。文件分類的應用範圍非常廣泛，包括：電子郵件與新聞過濾、資訊檢索、自動索引、以及詞彙語意解析等等。有關文件分類的研究，常由文件內容中抽取重要的特徵（feature）來代表這個文件，而特徵抽取的來源包羅萬象，可以簡單地從文件作者、出版機構著手，或是由蘊含豐富資訊的語言結構來作為抽取文件特徵的依據。先前的研究通常只由歸屬同類別的文件選出特徵集，很少將類別間是否具相關性納入考慮，而且當選完特徵後通常不再加以變動。這樣的作法對於線性分類或許是可行的，若是應用於階層式分類便顯得不恰當。本研究提出一個適用於階層式文件自動分類系統的特徵選取方法，經初步選完特徵集後，再依各特徵與相近類別間所具的分類意義做適當的調度。我們以『財經記事』的新聞資料進行分類實驗，結果驗證系統的強健性。另外，也得到下列幾個結論：（1）少的特徵數目有利於分類的進行，（2）階層式分類優於線性分類，（3）適當的特徵選取將更凸顯階層式分類的效能。
起訖頁	137-149
刊名	ROCLING論文集
期數	1999 (1999期)
出版單位	國立高雄師範大學輔導與諮商研究所
該期刊-上一篇	On Modeling Remote and Local Dependencies in Language
該期刊-下一篇	Term Selection with Distributional Clustering for Chinese Text Categorization using N-grams

新書閱讀

元照讀書館

優惠活動

月旦品評家

元照讀書館

．研討會新訊

月旦知識庫

月旦法律分析庫
月旦醫事法網
月旦會計財稅網

期刊數位服務

社群平台

讀者服務

關於元照

讀者服務專線：+886-2-23756688　傳真：+886-2-23318496
地址：臺北市館前路28 號 7 樓　客服信箱