[發明專利]構建知識圖譜的方法、電子設備和存儲介質在審
| 申請號: | 202210722648.4 | 申請日: | 2022-06-20 |
| 公開(公告)號: | CN115344703A | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 程祥;蘇森;夏敏 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 李莎 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 知識 圖譜 方法 電子設備 存儲 介質 | ||
1.一種構建知識圖譜的方法,其特征在于,包括:
獲取目標文本,所述目標文本包括被標注的部分實體;
基于所述目標文本,創建第一特征向量集合;
根據所述第一特征向量集合,得到至少一個第一候選實例集合;
利用強化學習的代理對所述第一候選實例集合進行篩選,得到至少一個目標實例;
利用所述至少一個目標實例,創建第二特征向量集合;
根據所述第二特征向量集合,得到至少一個第二候選實例集合;
基于所述至少一個第二候選實例集合,構建知識圖譜。
2.根據權利要求1所述的構建知識圖譜的方法,其特征在于,所述創建第一特征向量集合包括:
獲取目標文本的樣本集,所述樣本集包括被標注的部分實體;
創建第一子特征向量集合,包括由每一個被標注的頭實體,掃描目標文本根據所述被標注實體本身以及上下文的語義文本信息形成的三元組的集合;以及
創建第二子特征向量集合,包括由每一個被標注的尾實體,掃描目標文本根據所述被標注實體本身以及上下文的語義文本信息形成的三元組的集合;以及
創建第三子特征向量集合,包括由每一對被標注的頭實體和尾實體,掃描目標文本根據所述被標注實體本身和上下文的語義文本信息以及所述頭實體和尾實體之間語義文本信息形成的五元組的集合。
3.根據權利要求1所述的構建知識圖譜的方法,其特征在于,所述根據所述第一特征向量集合,得到至少一個第一候選實例集合包括:
用聚類算法對所述第一特征向量集合進行聚類,生成由多個第一特征向量聚合形成的多個向量集合作為抽取模式p;
基于所述目標文本,創建預選實例向量集合;
計算所述預選實例向量與所述抽取模式p之間的余弦相似度;
若所述由多個第一特征向量聚合形成的抽取模式p中超過一半的所述第一特征向量與所述預選實例向量的余弦相似度高于閾值τsim,
則將對應的所述預選實例向量記為可由抽取模式p匹配得出的第一候選實例。
4.根據權利要求3所述的構建知識圖譜的方法,其特征在于,所述基于所述目標文本,創建預選實例向量集合包括:
掃描目標文本,提取所述目標文本中所有分詞或分詞對;
創建第一子預選向量集合,包括由每一個分詞,根據其分詞本身以及上下文的語義文本信息形成的三元組的集合;以及
創建第二子預選向量集合,包括由每一對分詞,根據其分詞本身和上下文的語義文本信息以及所述分詞對之間語義文本信息形成的五元組的集合。
5.根據權利要求1所述的構建知識圖譜的方法,其特征在于,所述利用所述至少一個目標實例,創建第二特征向量集合包括:
根據所述抽取模式p構建狀態向量,所述狀態向量包括所有所述第一候選實例的置信度得分組成;
代理根據所述狀態向量對所述第一候選實例進行隨機篩選,并根據獎勵函數計算所述被篩選后的所述第一候選實例的獎勵值;
將所述被篩選后的所述第一候選實例合并入所述第一特征向量形成第二特征向量集合;
所述代理的篩選策略會根據所述獎勵值進行優化。
6.根據權利要求5所述的構建知識圖譜的方法,其特征在于,所述第一候選實例的置信度得分包括:
候選實例置信度計算公式如下:
Simp(i,p)=max{Sim(i,t)|t∈p}
其中ξ為能夠抽取出候選實例i的抽取模式p的集合,Sim(i,t)為使用余弦距離計算的相似度,Confρ(p)為所述抽取模式p的模式置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210722648.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:熱水器控制方法、裝置、介質及熱水器
- 下一篇:一種作動器控制器系統





