語料庫統計值與全球資訊網統計值之比較：以中文斷詞應用為例

林筱晴; 陳信希

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	語料庫統計值與全球資訊網統計值之比較：以中文斷詞應用為例
作者	林筱晴、陳信希
中文摘要	近年來全球資訊網（World Wide Web，簡稱Web）快速成長，不同來源、不同領域、不同媒體的資訊透過網路傳遞到使用者手上。Web除了扮演資訊傳播的角色外，也可以被視為是一個超大的資料集，提供語料庫為基礎－統計導向方法（Corpus-Based Statistics-Oriented Approach）所需要的統計值。本文以中文斷詞應用為例，由傳統語料庫和全球資訊網中，取得運用word-based n-gram model解斷詞歧義時所需要的統計值，藉以比較傳統語料庫和全球資訊網的差異。在第一組實驗，我們假設完全沒有未知詞，運用傳統語料庫的統計值最佳，其次依序為Google為基礎、AltaVista為基礎、和Openfind為基礎。在第二組實驗，我們針對指定實體辨識，地名和組織名這兩類有不錯的效能。在第三組實驗，我們整合斷詞系統與指定實體辨識模組，全球資訊網統計值比傳統語料庫的統計值好。在最後一組實驗，我們將傳統語料庫和全球資訊網混合在一起，以全球資訊網統計值解決未知詞問題，再以語料庫統計值解斷詞歧義性，實驗顯示具有最佳的斷詞效能。
起訖頁	1-12
刊名	ROCLING論文集
期數	2004 (2004期)
出版單位	中華民國計算語言學學會
該期刊-上一篇	Applying Meaningful Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem
該期刊-下一篇	Pronominal and Sortal Anaphora Resolution for Biomedical Literature

新書閱讀

元照讀書館

優惠活動

月旦品評家

元照讀書館

．研討會新訊

月旦知識庫

月旦法律分析庫
月旦醫事法網
月旦會計財稅網

期刊數位服務

社群平台

讀者服務

關於元照

讀者服務專線：+886-2-23756688　傳真：+886-2-23318496
地址：臺北市館前路28 號 7 樓　客服信箱