近年來全球資訊網(World Wide Web,簡稱Web)快速成長,不同來源、不同領域、不同媒體的資訊透過網路傳遞到使用者手上。Web除了扮演資訊傳播的角色外,也可以被視為是一個超大的資料集,提供語料庫為基礎-統計導向方法(Corpus-Based Statistics-Oriented Approach)所需要的統計值。本文以中文斷詞應用為例,由傳統語料庫和全球資訊網中,取得運用word-based n-gram model解斷詞歧義時所需要的統計值,藉以比較傳統語料庫和全球資訊網的差異。在第一組實驗,我們假設完全沒有未知詞,運用傳統語料庫的統計值最佳,其次依序為Google為基礎、AltaVista為基礎、和Openfind為基礎。在第二組實驗,我們針對指定實體辨識,地名和組織名這兩類有不錯的效能。在第三組實驗,我們整合斷詞系統與指定實體辨識模組,全球資訊網統計值比傳統語料庫的統計值好。在最後一組實驗,我們將傳統語料庫和全球資訊網混合在一起,以全球資訊網統計值解決未知詞問題,再以語料庫統計值解斷詞歧義性,實驗顯示具有最佳的斷詞效能。 |