月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
科學與工程技術期刊 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
利用共生詞彙特性發展一個二階段文件群集法
並列篇名
A Two-Stage Document-Clustering Method Utilizing Co-Occurring Words
作者 李維平吳澤民王美淳
中文摘要
群集化(clustering)是在資料探勘領域中被廣泛應用的技術,將其概念應用於文字探勘的領域中,亦是近來的熱門研究議題。若將群集化技術應用於文件型態的資料時,常會採用向量空間模型(vector space model, VSM)來表達文件資料,然而在學術研究上卻發現有兩個缺失:一為無法辨識文中詞彙間的關聯性,造成文件誤判。在向量空間模型中,每個關鍵詞彙所構成的維度都是獨立的,無法區別文中詞彙間的關聯性(包括一詞多義、一義多詞、以及共同發生詞彙),使得進行文件相似度的比對時可能會造成誤判的情況,降低文件群集之品質。另一缺失則為如維度太高,易造成群集失準的問題。向量空間模型的維度是由文件集所有的關鍵詞彙之數量而定,當文件所萃取出來的關鍵字過多時,便會使得向量空間模型的維度增加,導致群集的結果也比較不準確。 為了改善向量空間模型的兩大缺點,本文嘗試提出一個二階段的文件群集法,第一階段先將關鍵字進行群集,第二階段再利用這些關鍵字群集將文件分群;本文透過關聯規則技術的應用,來改善向量空間模型的缺失並增進文件群集的品質,此外,關鍵字群集後的結果還可以幫助文件群集作概括性的描述。本文以Reuters-21578 文件集進行實驗評估,將本論文所提出的文件群集法與傳統的文件群集法相比較,實驗結果證實本論文所提出的方法確實能得到高品質的文件群集。
起訖頁 9-18
關鍵詞 文件群集關聯規則文件探勘共生詞彙Document clusteringAssociation ruleText miningCo-occurring words
刊名 科學與工程技術期刊  
期數 200703 (3:1期)
出版單位 大葉大學
該期刊-上一篇 偏壓輔助成核對多晶CVD鑽石成長之影響
該期刊-下一篇 對向汽車頭燈照射對正向駕駛者辨識距離的影響
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄