事實上,很多企業不是沒有知識庫或資料倉儲'而是知識庫大繁雜,以致在需要時無法適當地取得資料;再加上網際網路的興起,網路上龐大的、未經組織與分類的、及高重複性的資料特性使得資料擷取問題更加複雜。透過一般常用的搜尋引擎(如google)會搜尋到上千筆的資料。對於使用者而言,瀏覽超過數百萬個網頁來尋找相闊的資料是一項沉重的負擔,而目前已開發的搜尋系統並無法確切地滿足使用者的需求。資訊超載的情況,使得人們無法有效地進行資料搜尋,有必要利用資訊技術來尋找相關且高品質的資訊。然而,僅藉由搜尋引擎來尋找知識是不足的,因為即使目前大部份的搜尋引擎都有提供依相關性排序及本文摘要的功能。 通常使用者還是得透過搜尋引擎尋找數次、瀏覽許多不必要的網頁之後才能找到所需的資料,而非一次就能完成。因此本研究的主要目的,在於介紹如何利用文字探勘來發現蘊藏在大量中文文件中的知識。本文也將深入探討此技術的各項主要元件。透過主題地園的實證研究,我們將製作兩類的主題地圈,分別是顯性知識(臺灣證券暨期貨法令資料)及隱性知識(王永慶思想哲學)。藉由這兩個地圖的比較來探討顯性知識與隱性知識在主題地圖的呈現上所發現的問題。 |