[發明專利]一種面向知識圖譜的聯合實體消歧方法及系統在審
| 申請號: | 202210111600.X | 申請日: | 2022-01-29 |
| 公開(公告)號: | CN114492395A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 羅勁瑭;姚實穎;王進;徐杰;楊宇玄;陳一鳴;祝和春;高棟梁;曾鑒;張全明;倪江 | 申請(專利權)人: | 國網四川省電力公司經濟技術研究院 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F16/36;G06N3/08;G06N3/04 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 張楊 |
| 地址: | 610000 四川省成都市中國(四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 知識 圖譜 聯合 實體 方法 系統 | ||
1.一種面向知識圖譜的聯合實體消歧方法,其特征在于,包括如下步驟:
T1:對待消岐實體指稱項進行消歧難易程度排序,確定系統消歧順序,得到消歧任務序列;
T2:針對消歧任務序列中的實體指稱項依次進行特征學習,包括局部特征和全局特征,得到適合消歧任務的復合特征數據集;
T3:構建動態實體消歧決策網絡,以復合特征訓練集、復合特征驗證集為輸入,訓練動態實體消歧決策網絡;
T4:以復合特征測試集為輸入,通過訓練好的動態實體消歧決策網絡得到消歧決策策略,進行實體指稱項的動態實體消歧。
2.根據權利要求1所述的一種面向知識圖譜的聯合實體消歧方法,其特征在于,通過各實體指稱項對應的所有候選實體的先驗概率分布來判斷步驟T1所述的消歧難易程度。
3.根據權利要求1所述的一種面向知識圖譜的聯合實體消歧方法,其特征在于,步驟T1所述的各實體指稱項的消歧難易程度計算方式為:
式中,Rj表示第j個實體指稱項的消歧難易程度,Pi表示第j個實體指稱項的第i個候選實體的先驗概率,n表示第j個實體指稱項對應的候選實體的個數,i和j為無具體定義的變量。
4.根據權利要求2或3任意一項所述的一種面向知識圖譜的聯合實體消歧方法,其特征在于,分別對多個選定網絡語料庫中的實體指稱項超鏈接進行概率統計,將平均值作為候選實體的先驗概率。
5.根據權利要求1所述的一種面向知識圖譜的聯合實體消歧方法,其特征在于,步驟T2所述的特征學習具體包括以下子步驟:
T21:采用word2vec模型對實體指稱項的上下文信息、實體指稱項對應候選實體的描述文本信息進行預訓練,生成預訓練向量;
其中,獲得指定實體指稱項的上下文信息c,c={c1,c2,...,ct},上下文字數的窗口大小為t;
獲得指定實體指稱項對應的第i個候選實體的描述文本信息wi,wi={wi1,wi2,...,wih},描述文本長度為h;
T22:采用Transformer模型對指定實體指稱項的上下文信息、指定實體指稱項對應候選實體的描述文本信息分別進行編碼,獲得上下文信息向量C和第i個候選實體的描述文本信息向量Wi,公式如下:
C=c'1,c'2,...,c’t=T(c1,c2,...,ct)
Wi=w’i1,w’i2,...,w’ih=T(wi1,wi2,...,wih)
其中,T表示Transformer模塊;
T23:通過前饋神經網絡f獲得第i個候選實體的標準化向量生成指定實體指稱項對應的候選實體集的向量矩陣其中,n為指定實體指稱項對應的候選實體數量;
T24:采用softmax函數分別獲得候選實體向量和已鏈接的實體向量對上下文向量的注意力系數矩陣,再與上下文信息向量C相乘,通過加權求和得到局部特征向量X1、全局特征向量X2;
T25:將局部特征向量X1和全局特征向量X2通過一個前饋神經網絡f,與指定實體指稱項對應的候選實體集的向量矩陣按列拼接,獲得動態實體消歧決策網絡的復合特征向量Einput。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網四川省電力公司經濟技術研究院,未經國網四川省電力公司經濟技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210111600.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能乘務排班的方法及設備
- 下一篇:建立與非注冊資源的基于音頻的網絡會話





