  1. 熱門:
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
中文計算語言學期刊 本站僅提供期刊文獻檢索。

An OOV Word Embedding Framework for Chinese Machine Reading Comprehension
作者 羅上堡李青憲涂家章陳冠宇
在使用深度學習(Deep Learning)方法於自然語言處理的問題時,我們通常會先將每一個詞以一個相對應的詞向量(Word Embedding)表示,再輸入至各式神經網路模型。當遭遇未登錄詞(Out-of-Vocabulary, OOV)的問題時,最常見的處理方式是略去該未登錄詞、以一個零向量表示或是用一個隨機產生的向量表示這個未登錄詞。就我們所知,在目前的研究裡,似乎仍未有一套合理且快速的做法,用於產生未登錄詞的詞向量表示法,並進一步地探索未登錄詞的詞向量對於任務成效的影響性。因此,本論文提出一套新穎的詞向量表示法學習技術,其目標是為未登錄詞產生一個較為合理且可靠的低維度向量表示法;除此之外,我們將進一步地把此一技術運用於中文機器閱讀理解任務之中,探究未登錄詞對於中文機器閱讀理解任務之影響,並驗證本論文所提出的詞向量表示法學習技術之成效。
When using Deep Learning methods in NLP-related tasks, we usually represent a word by using a low-dimensional dense vector, which is named the word embedding, and these word embeddings can then be treated as feature vectors for various neural network-based models. However, a major challenge facing such a mechanism is how to represent OOV words. There are two common strategies in practiced: one is to remove these words directly; the other is to represent OOV words by using zero or random vectors. To mitigate the flaw, we introduce an OOV embedding framework, which aims at generating reasonable low-dimensional dense vectors for OOV words. Furthermore, in order to evaluate the impact of the OOV representations, we plug the proposed framework into the Chinese machine reading comprehension task, and a series of experiments and comparisons demonstrate the good efficacy of the proposed framework.
起訖頁 67-83
關鍵詞 自然語言處理詞向量表示法未登錄詞機器閱讀理解Natural Language ProcessingWord EmbeddingOut-of-vocabularyMachine Reading Comprehension
刊名 中文計算語言學期刊  
期數 201812 (23:2期)
出版單位 中華民國計算語言學學會
該期刊-上一篇 Supporting Evidence Retrieval for Answering Yes/No Questions
該期刊-下一篇 以深層類神經網路標記中文階層式多標籤語意概念




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄