中國大陸與台灣的文字同屬於華文字體,但字體上卻分為簡體字與繁體字。中國大陸與台灣近年來在中文書籍及網路上皆有大量的資訊交流。基於閱讀習慣,文字勢必需要執行簡繁轉換後才利於雙方的讀者閱讀。傳統的簡繁轉換擁有簡體一字對繁體多字的歧異問題以及兩岸用語不同的問題。因此,本研究設計一個具有擴展性的簡繁轉換系統,透過人工擷取維基百科新增對照表內容來改善兩岸用語不同的問題,以及使用語言模型改善簡體字一個字對繁體字多個字的歧異問題。此系統可以降低各種中文電子書及執行簡繁轉換後人工校正的成本。具有彈性的架構使得系統可以持續擴充改進。 |