中央研究院平衡語料庫(Academia Sinica Balance Corpus,簡稱研究院語料庫Sinica Corpus)是第一個有完整詞類標記的中文語料庫。這個語料庫由中央研究院詞知識庫小組蒐集標記完成。其測試版(Sinica 1.0)共計兩百萬詞,將於一九九五年九月公開開放給學術研究界使用。帶詞類標記的平衡語料庫是計算語言學及語料庫語言學研究必需的資料。但中文一直缺乏這個基礎研究工具。中央研究院平衡語料庫構建的目的即在彌補這個研究基礎架構上的空缺。這個語料庫是以五百萬詞的平衡語料為目標,第一階段完成二百萬詞。除了說明語料來源、文體、語式等基本統計計算資料外;重點在解說此平衡語料庫中所採用的分詞標準及標記集(tagset)。分詞標準是採用計算語言學學會的分詞標準,將向中央標準局提出為資訊用分詞國家標準草案。標記集是根據中研院詞庫小組的詞類分析簡化而成,共有四十六個標記。 |