[發明專利]一種基于自然語言實體關系的智能問答推理方法和系統在審
| 申請號: | 202110902862.3 | 申請日: | 2021-08-06 |
| 公開(公告)號: | CN113779211A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 李瑞軒;辜希武;吳小建;李玉華 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F40/289;G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 胡秋萍 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 實體 關系 智能 問答 推理 方法 系統 | ||
1.一種基于自然語言實體關系的智能問答推理方法,其特征在于,所述方法包括:
一、實體關系語料庫構建階段:
對語料庫中每一條語句進行分詞操作;從分詞后的語句中提取實體詞;
以提取到的實體詞為基礎,若兩個實體出現在同一自然語句中,則該條自然語句作為連接這兩個實體的邊,構成實體關系;對語料庫中實體連接關系進行匯總,形成實體關系語料庫;
二、訓練階段:
構建智能推理深度學習模型,所述智能推理深度學習模型包括:BERT模型,用于對實體連接關系數據進行詞向量編碼,并對圖結構本身進行信息的編碼融合,這些數據轉換為向量結構后發送至圖神經網絡;圖神經網絡,用于對向量結構進行學習,根據語言信息本身進行理解完成推理,并給出最終的答案;
使用Mask遮蓋機制將文本隨機遮蔽掉部分內容,通過文章上下文來預測被遮蓋的詞是什么,依次初步訓練BERT模型相應的參數;從語料庫中隨機選取幾萬條連續的句子對和不連續的句子對組成兩個集合,讓BERT去識別預測那些句子對是連續的而那些不是,得到預訓練好的BERT模型;采用訓練樣本集訓練圖神經網絡,訓練樣本包括問題、答案以及若干反例;
三、應用階段:
對輸入的問題語句進行分詞和實體詞提取,得到問題實體詞;從實體關系語料庫中獲得問題相關的實體連接關系圖;以問題相關的實體連接關系圖作為推理決策數據,輸入智能推理深度學習模型進行推理,將評分最高的結點作為最終答案結點的輸出。
2.如權利要求1所述的方法,其特征在于,所述從分詞后的語句中提取實體詞,包括:
S11:給定已經分好詞的句子s={w1,w2,w3,...,wn},按照n-gram算法收集可能出現的實體詞(w1),(w2),...,(wn)、(w1w2),(w2w3),...,(wn-1wn)、……、(w1w2w3...wn);
S12:計算實體的識別概率為Pr(w)=Anchor(w)/Freq(w),若Pr(w)低于選取實體識別概率閾值γed,則篩除,其中,w表示n-gram詞,Freq(w)表示w在整個語料庫中出現的頻數;Anchor(w)表示w在整個語料庫中以錨點形式出現的頻數;
S13:計算句子中其他詞匯w2對實體的支持程度其中,Pr(e'|w2)是先驗概率,Entity(w)表示詞匯w所有可能指向的實體集合,表示兩個實體的關聯度,Np(w2)表示所有包含實體w2的頁面的集合中元素個數;
S14:對于計算wk與其可能的實體詞的匹配契合程度分數為其中,wk表示句子s提取到的錨點集合中的詞匯,Entity(wk)表示wk對應的所有可能的實體集合;
S15:詞匯最終對應的實體為其中,Entity(s)表示句子s最終對應的實體集合,γ1表示約束實體的先驗概率的閾值,γ2表示篩選掉較低分數的閾值。
3.如權利要求2所述的方法,其特征在于,兩個實體的關聯度為
其中,Np=|∪wPages(w)|表示語料庫中所有頁面的總數。
4.如權利要求2或3所述的方法,其特征在在于,對得到的實體進一步篩選,具體如下:
(1)分別計算實體識別概率Pr(e)以及所度量的實體與句子間的關聯度R(e,s):
(2)取二者的算術平均數作為最終篩選的指標
(3)若γs表示閾值,則篩去,得到實體集合
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110902862.3/1.html,轉載請聲明來源鉆瓜專利網。





