[發明專利]機器閱讀理解方法、設備、存儲介質及裝置有效
| 申請號: | 201911058199.2 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN111027327B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 郝正鴻;許開河;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/205;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 肖丹 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 閱讀 理解 方法 設備 存儲 介質 裝置 | ||
1.一種機器閱讀理解方法,其特征在于,所述機器閱讀理解方法包括以下步驟:
獲取待理解段落及對應的多個目標問題;
將所述待理解段落及對應的多個所述目標問題進行多線程處理,依次經過預設機器閱讀理解模型的嵌入層、編碼層和交互層,獲得所述待理解段落與各所述目標問題之間的交互信息語義;
將所述交互信息語義經過所述預設機器閱讀理解模型的篩選層,獲得與各所述目標問題關聯性強的有價值句子向量;
所述有價值句子向量經過所述預設機器閱讀理解模型的回答層,獲得各所述目標問題的預測答案范圍;
將所述預測答案范圍發送至目標終端;
所述將所述交互信息語義經過所述預設機器閱讀理解模型的篩選層,獲得與各所述目標問題關聯性強的有價值句子向量,包括:
經過所述預設機器閱讀理解模型的篩選層,根據待理解段落的向量表示,通過門過濾概率公式計算門過濾概率,所述門過濾概率公式為:
其中,gi為句子i的門過濾概率,σ為sigmoid函數,Wg和Ug均為待學習參數,hi為所述待理解段落中句子i的向量表示,為所述待理解段落的向量表示,bg為偏置項;
將所述待理解段落中每個句子的向量表示與所述門過濾概率點乘,獲得所述待理解段落中每個句子門過濾后的向量表示fi,公式為:
fi=gi⊙hi;其中,⊙表示點乘;
根據所述交互信息語義,將所述待理解段落中每個句子門過濾后的向量表示fi與各目標問題的向量表示hq通過預設交互公式進行注意力交互,獲得與各所述目標問題關聯性強的有價值句子向量pq,所述預設交互公式為:
φ(fi,hq)=vTtanh(Wffi+Whhq+b);
其中,b為偏置項,φ(fi,hq)為fi和hq的attention score,fi為待理解段落中每個句子經過門過濾后向量表示,v為待學習參數,T表示矩陣轉置,Wf為待學習參數,Wh為待學習參數,是歸一化處理的結果,歸一化函數為softmax函數,從而得到段落中每個句子的attention權重,pq即為段落中所有句子的帶attention權重的向量表示的加權求和。
2.如權利要求1所述的機器閱讀理解方法,其特征在于,所述將所述待理解段落及對應的多個所述目標問題進行多線程處理,依次經過預設機器閱讀理解模型的嵌入層、編碼層和交互層,獲得所述待理解段落與各所述目標問題之間的交互信息語義,包括:
將所述待理解段落及對應的多個所述目標問題進行多線程處理,經過預設機器閱讀理解模型的嵌入層,獲得待理解段落的向量表示及各目標問題的向量表示;
所述待理解段落的向量表示及各所述目標問題的向量表示經過所述預設機器閱讀理解模型的編碼層,獲得所述待理解段落對應的段落語義及各所述目標問題對應的問題語義;
所述段落語義及各所述問題語義經過所述預設機器閱讀理解模型的交互層,獲得所述待理解段落與各所述目標問題之間的交互信息語義。
3.如權利要求1所述的機器閱讀理解方法,其特征在于,所述獲取待理解段落及對應的多個目標問題之前,所述機器閱讀理解方法還包括:
從預設數據庫獲取開放數據,對所述開放數據進行數據抽取,獲得樣本段落;
對所述樣本段落進行關鍵詞提取,獲得所述樣本段落對應的關鍵詞;
根據所述關鍵詞生成樣本答案;
根據所述樣本段落和所述樣本答案生成樣本問題;
建立基礎機器閱讀理解模型;
根據所述樣本段落、所述樣本答案和所述樣本問題對所述基礎機器閱讀理解模型進行訓練,獲得預設機器閱讀理解模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911058199.2/1.html,轉載請聲明來源鉆瓜專利網。





