中央研究院平衡語料庫簡介

黃居仁; 陳克健; 張莉萍; 許蕙麗

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	中央研究院平衡語料庫簡介
作者	黃居仁、陳克健、張莉萍、許蕙麗
中文摘要	中央研究院平衡語料庫（Academia Sinica Balance Corpus，簡稱研究院語料庫Sinica Corpus）是第一個有完整詞類標記的中文語料庫。這個語料庫由中央研究院詞知識庫小組蒐集標記完成。其測試版（Sinica 1.0）共計兩百萬詞，將於一九九五年九月公開開放給學術研究界使用。帶詞類標記的平衡語料庫是計算語言學及語料庫語言學研究必需的資料。但中文一直缺乏這個基礎研究工具。中央研究院平衡語料庫構建的目的即在彌補這個研究基礎架構上的空缺。這個語料庫是以五百萬詞的平衡語料為目標，第一階段完成二百萬詞。除了說明語料來源、文體、語式等基本統計計算資料外；重點在解說此平衡語料庫中所採用的分詞標準及標記集（tagset）。分詞標準是採用計算語言學學會的分詞標準，將向中央標準局提出為資訊用分詞國家標準草案。標記集是根據中研院詞庫小組的詞類分析簡化而成，共有四十六個標記。
起訖頁	81-99
刊名	ROCLING論文集
期數	1995 (1995期)
出版單位	國立高雄師範大學輔導與諮商研究所
該期刊-上一篇	THE NEW GENERATION BEHAVIORTRAN: DESIGN PHILOSOPHY AND SYSTEM ARCHITECTURE
該期刊-下一篇	ERROR CORRECTION OF SPEECH RECOGNITION OUTPUTS USING GENERALIZED LR PARSING AND CONFUSION MATRIX

新書閱讀

元照讀書館

優惠活動

月旦品評家

元照讀書館

．研討會新訊

月旦知識庫

月旦法律分析庫
月旦醫事法網
月旦會計財稅網

期刊數位服務

社群平台

讀者服務

關於元照

讀者服務專線：+886-2-23756688　傳真：+886-2-23318496
地址：臺北市館前路28 號 7 樓　客服信箱