本篇論文提出了一個理想數學文字問題語料庫所應具備的特性,並敘述我們如何建置一個完善的中文國小數學文字問題語料庫:其過程、所標註的內容、以及遭遇的困難。求解數學文字問題是自然語言理解在人工智慧領域的一個常見應用。近年來有關於英文數學文字問題的研究,都是以機器學習的方法為主。但不論是執行機器學習,或比較不同的解題系統,都需要一個完善的語料庫。目前國際上雖然已有數個公開的英文數學文字問題題庫,但他們所收錄的數學題庫多偏頗於自家解題系統的特性,難以公平評估各系統的真實性能。而在中文方面,迄今尚無任何一個公開的數學文字問題題庫可資使用。為了能有一個可供研究使用的數學文字問題語料庫,並修正前述英文題庫之缺失,我們建立了一個頗具規模的中文國小數學文字問題語料庫。此語料庫原始資料是由台灣三個國小教科書及參考書的出版社所授權提供。為完整提供所有的數學文字問題題型及內容,我們僅僅清除了無關解題的垃圾符號,並不增刪原始內容,以完整呈現文字敘述之原貌。此外,我們還加註了額外的訊息,並在部分題目上標註題型和語言分析,以助研究者瞭解數學文字問題之特性及建立模型。本語料庫是第一個完整的中文國小數學文字問題語料庫。依各個年級分類,含有數種補充資訊,便於評估各解題系統的解題能力;亦可讓使用者按個別應用需求,塑造不同組態的特殊語料庫,將有助於從事相關研究者之工作。 |