中文摘要 |
語料庫所大量儲存的語料,能提供豐富、真實且可靠的語言使用情況,經由語料分析和研究,可突破語言專家及學者本身語感的侷限,瞭解語言使用事實,各類語文的分析、研究及應用,才會有更堅實的基礎。因此,近半世紀以來,許多國家的政府、學術單位、和民間出版業者,都進行建構大型語料庫,例如美國當代英語語料庫( Corpus of Contemporary AmericanEnglish, COCA)有4.5 億個英文字、英國國家語料庫( British National Corpus,BNC)有1 億個英文字、柯林斯語料庫(The Collins Corpus)有45 億個英文字,中央研究院漢語平衡語料庫有1 千萬中文詞。中國大陸國家語委現代漢語語料庫有1 億中文字、北京外國語大學的中英雙語語料庫有1 億字、北京大學計算語言學研究所的人民日報語料庫有1 千3 百萬字、北京語言大學的北京口語語料查詢系統有40 萬字轉寫文本。日本則由國立國語研究所等單位在 2011 年共同建置包括口語、書面語、學習者、教材語料的大型語料庫,在書面語語料就有一億五千萬詞。這些語料庫各有其建置目的及用途,並非針對華語文教學應用而設計(柯華葳、林慶隆、張俊盛、陳浩然、高照明、蔡雅薰、張郁雯、陳柏熹、張莉萍等,2015 )。 |