[發明專利]利用引入了語義信息的詞向量進行機器閱讀理解的方法有效
| 申請號: | 202010719374.4 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111966797B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 魏建國;孔維坤 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36;G06N3/0442;G06N3/045;G06N3/047;G06N3/048 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 引入 語義 信息 向量 進行 機器 閱讀 理解 方法 | ||
本發明屬于自然語言自動處理技術領域,為更精確地解決機器閱讀理解問題,本發明,利用引入了語義信息的詞向量進行機器閱讀理解的方法,步驟如下:步驟一、把機器閱讀理解模型所涉及到的上下文和問題中的詞均使用詞向量表示;步驟二、使用Retrofitting對詞向量進行微調,得到詞向量表示的上下文序和問題序列;步驟三、編碼:分別對上下文和問題序列進行編碼,得到上下文表示和問題表示;步驟四、基于迭代對編碼后的上下文和問題序列進行交互;步驟五、生成答案:從步驟四得到的fully?aware?context?representation中提取答案片段的起始位置和結束位置。本發明主要應用于機器自動處理語言場合。
技術領域
本發明屬于自然語言處理技術領域,尤其是涉及基于深度學習模型來實現機器閱讀理解的方法。
背景技術
作為一種衡量機器對文本的理解程度的方法,機器閱讀理解要求模型根據一段給定的上下文來回答針對其提出的問題,該任務是衡量機器對自然語言理解程度的標準之一。機器閱讀理解的目標是縮小機器與人之間在自然語言理解方面的差距,這一目標可以形式化地表述為:給定上下文C、根據C提出的問題Q和人類給出的對于問題Q的正確答案A,要求模型通過學習函數F來給出問題Q的正確答案A:F(C,Q)=A。機器閱讀理解很可能會改變一直以來的人機交互方式,例如,由機器閱讀理解解決方案提供支持的搜索引擎可以更好地處理自然語言問題,與僅返回一些相關的網頁相比,這種方式將為用戶提供更好的搜索體驗。基于對給定文檔的理解,機器閱讀理解模型還可用于提供高質量的咨詢服務,機器閱讀理解模型也可以用于信息檢索,使其更加有效,等等。
針對基于深度學習模型的機器閱讀理解問題,有多種方法如循環神經網絡、雙向transformer(一種基于注意力機制的網絡模型)、Reinforced?Mnemonic?Reader(增強助記符閱讀器)來改進神經網絡模型以實現更高效的機器閱讀理解模型,但這些方法都不可避免地局限在模型結構的改進上面,而忽略了對模型使用到的詞向量進行改進。本發明提出利用Retrofitting(一種詞向量后處理方法)技術將語義詞典中的語義信息引入到詞向量中,再利用處理過的詞向量處理機器閱讀理解問題的方法。
發明內容
為克服現有技術的不足,本發明旨在:
1)針對機器閱讀理解問題,提出一種引入知識的閱讀理解方法,以更精確地解決機器閱讀理解問題。
2)該方法利用Retrofitting技術對機器閱讀理解模型使用的詞向量進行微調,提高模型的完全匹配分數和F1分數(一種兼顧了模型的精確率和召回率的性能衡量指標)。
3)該方法能夠充分考慮語義詞典中蘊含的關系信息,能夠將其引入到機器閱讀理解所使用的詞向量中去,可以更加準確地表示機器閱讀理解問題涉及到的詞,從而提高機器閱讀理解模型的正確率。
為此,本發明采取的技術方案是,利用引入了語義信息的詞向量進行機器閱讀理解的方法,步驟如下:
步驟一、嵌入:把機器閱讀理解模型所涉及到的上下文和問題中的詞均使用詞向量表示;
步驟二、使用Retrofitting對詞向量進行微調,得到詞向量表示的上下文序和問題序列,Retrofitting是一種通過鼓勵具有相互關系的詞獲得更相似的向量表示,來利用語義詞典中的關系信息優化向量空間表示的方法;
步驟三、編碼:引入詞匯信息、句法信息,包括關鍵詞是否完全匹配,詞性標簽、實體標簽、問題的類別,分別對上下文和問題序列進行編碼,得到上下文表示和問題表示;
步驟四、基于迭代對編碼后的上下文和問題序列進行交互:引入注意力機制來完成文章級別的自對齊,得到充分感知的上下文表示fully-aware?contextrepresentation;
步驟五、生成答案:從步驟四得到的fully-aware?context?representation中提取答案片段的起始位置和結束位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010719374.4/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





