[發明專利]一種基于多頭注意力機制和動態迭代的機器閱讀理解方法在審
| 申請號: | 201811365160.0 | 申請日: | 2018-11-16 |
| 公開(公告)號: | CN109492227A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 李麗雙;張星熠;周安橋;周瑜輝 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;劉秋彤 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態迭代 閱讀 構建 注意力機制 注意力 多頭 神經網絡模型 循環神經網絡 自然語言處理 解碼器 答案 模型構建 問題編碼 預測 文本 輸出 探索 | ||
本發明提供了一種基于多頭注意力機制和動態迭代的機器閱讀理解方法,屬于自然語言處理領域。機器閱讀理解模型構建方法如下:構建文章和問題編碼層;構建基于雙向注意力流的循環神經網絡;構建自注意力層以及基于動態迭代解碼器預測答案輸出。本發明方法可以針對機器閱讀理解任務文本中的問題進行答案預測;本發明建立了一個新的端到端的神經網絡模型,為機器閱讀理解任務的探索提供了一種新思路。
技術領域
本發明屬于機器閱讀理解領域,涉及一種對文章和問題進行編碼,再利用雙向注意力流、自注意力層和動態迭代解碼器預測答案輸出的方法。具體是指構建文章問題編碼層、構建基于雙向注意力流的循環神經網絡、構建自注意力層和基于動態迭代解碼器預測答案輸出。
背景技術
問題回答型閱讀理解任務的主要形式是給定一定詞匯量的短文和基于此短文的問題,并將答案限制為原文中的一段文本片段,需要在充分理解原文的基礎上,通過一定形式的邏輯推斷預測問題的答案。目前該領域的主流模型主要有Match-LSTM、BiDAF和R-Net。
Wang和Jiang提出的Match-LSTM(Shuohang Wang and Jing Jiang.2017.Machinecomprehension using match-lstm and answer pointer.In Proceedings of ICLR)是較早在SQuAD數據集上進行測試的端到端的神經網絡模型,使用單向LSTM進行編碼,并將每個詞關于問題的注意力分布和該詞表示同時輸入另一個LSTM,最后利用指針網絡預測答案。Match-LSTM作為早期在SQuAD數據集上進行測試的模型,為后續優秀模型的設計提供了思路,但也存在諸多問題:模型僅計算了文章詞向量對問題的單向注意力,損失了大量語義信息,在答案較長時表現不佳,精確匹配結果只有30%左右。
針對Match-LSTM中僅計算了單向注意力的問題,BiDAF模型(Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and Hananneh Hajishirzi.2017.Bidirectionalattention flow for machine comprehension.In Proceedings of ICLR)引入了雙向注意力機制,即進行從文章到問題和從問題到文章兩種注意力計算,并通過雙向LSTM進行語義信息的聚合。BiDAF在SQuAD 1.1數據集評測中取得了優異的結果,但仍存在問題:沒有類似自匹配的過程,無法很好地獲取上下文的依賴關系。
為強化文章內部的信息交互,R-Net模型(Microsoft Research Asia.2017.R-Net:Machine reading comprehension with self-matching networks.In Proceedingsof ACL)引入了自匹配網絡。R-Net通過自注意力機制捕捉原文內部各詞之間的交互信息,同時利用門控機制更好地提取和文章有關的問題信息。R-Net在SQuAD 1.1數據集評測中取得了接近人類的表現,但也存在一些問題:(1)BiDAF模型和R-Net模型均采用指針網絡一次性預測答案位置,不一定能獲得全局最優解。(2)R-Net沒有類似雙向注意流的機制,不能充分融合文章和問題的語義信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811365160.0/2.html,轉載請聲明來源鉆瓜專利網。





