月旦知識庫
 
  1. 熱門:
 
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
ROCLING論文集 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
語料庫統計值與全球資訊網統計值之比較:以中文斷詞應用為例
作者 林筱晴陳信希
中文摘要
近年來全球資訊網(World Wide Web,簡稱Web)快速成長,不同來源、不同領域、不同媒體的資訊透過網路傳遞到使用者手上。Web除了扮演資訊傳播的角色外,也可以被視為是一個超大的資料集,提供語料庫為基礎-統計導向方法(Corpus-Based Statistics-Oriented Approach)所需要的統計值。本文以中文斷詞應用為例,由傳統語料庫和全球資訊網中,取得運用word-based n-gram model解斷詞歧義時所需要的統計值,藉以比較傳統語料庫和全球資訊網的差異。在第一組實驗,我們假設完全沒有未知詞,運用傳統語料庫的統計值最佳,其次依序為Google為基礎、AltaVista為基礎、和Openfind為基礎。在第二組實驗,我們針對指定實體辨識,地名和組織名這兩類有不錯的效能。在第三組實驗,我們整合斷詞系統與指定實體辨識模組,全球資訊網統計值比傳統語料庫的統計值好。在最後一組實驗,我們將傳統語料庫和全球資訊網混合在一起,以全球資訊網統計值解決未知詞問題,再以語料庫統計值解斷詞歧義性,實驗顯示具有最佳的斷詞效能。
起訖頁 1-12
刊名 ROCLING論文集  
期數 2004 (2004期)
出版單位 中華民國計算語言學學會
該期刊-上一篇 Applying Meaningful Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem
該期刊-下一篇 Pronominal and Sortal Anaphora Resolution for Biomedical Literature
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄