中文摘要 |
在使用深度學習(Deep Learning)方法於自然語言處理的問題時,通常會先將每一個詞以一個相對應的詞向量(Word Embedding)表示,再輸入至各式神經網路模型。當遭遇未登錄詞(Out-of-Vocabulary, OOV)的問題時,常見的處理方式是略去該未登錄詞、以一個零向量表示或是用一個隨機產生的向量表示這個未登錄詞。就我們所知,在目前的研究裡,似乎仍未有一套合理且快速的做法,用於產生未登錄詞的詞向量表示法,並進一步地探討未登錄詞的詞向量對於各式任務成效的影響性。因此,本論文嘗試提出一套新穎的詞向量表示法學習技術,其目標是為未登錄詞產生一個較為合理且可靠的低維度向量表示法;除此之外,本研究進一步地把此一技術運用於中文機器閱讀理解任務之中,探究未登錄詞對於中文機器閱讀理解任務之影響,並驗證本論文所提出的詞向量表示法學習技術之成效。 |