本文探討如何將文件自動分類技術應用於圖書分類系統的建置。根據圖書資料的特性, 本研究將圖書資訊區分為敘述資料(Description Data) 與詮釋資料(Meta-Information)。其中,敘述資訊包含書名、內容簡介與作者簡介;詮釋資料則包含作者與出版社資訊。本文中所提出之圖書自動分類方法,其流程包含:(1) 藉由敘述資料的文意分析萃取關鍵詞作為分類特徵,並透過特徵挑選(Feature Selection)篩選具有類別代表性的特徵;(2) 利用支援向量機(Support Vector Machine)分類技術建立分類的模型;(3) 以統計方法分析詮釋資料,發掘有助於分類的統計模型;(4) 以線性組合法則整合SVM 的分類模型與詮釋資料的統計模型建立可行的圖書分類模型。實驗中使用博客來網路書店的圖書資料,以K-fold Cross-Validation 的方法驗證可行性。結果顯示,當整合SVM 的分類模型與詮釋資料的統計資訊時,可使整體分類的正確率達到95%。 |