[發明專利]構建知識圖譜的方法、電子設備和存儲介質在審
| 申請號: | 202210722648.4 | 申請日: | 2022-06-20 |
| 公開(公告)號: | CN115344703A | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 程祥;蘇森;夏敏 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 李莎 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 知識 圖譜 方法 電子設備 存儲 介質 | ||
本申請提供一種構建知識圖譜的方法、電子設備和存儲介質,該方法包括:獲取目標文本,所述目標文本包括被標注的部分實體;基于所述目標文本,創建第一特征向量集合;根據所述第一特征向量集合,得到至少一個第一候選實例集合;利用強化學習的代理對所述第一候選實例集合進行篩選,得到至少一個目標實例;利用所述至少一個目標實例,創建第二特征向量集合;根據所述第二特征向量集合,得到至少一個第二候選實例集合;基于所述至少一個第二候選實例集合,構建知識圖譜。本申請能夠實現在對未知文本進行少量人工標注的情況下,可以低成本準確地構建知識圖譜。
技術領域
本申請涉及數據挖掘領域,尤其涉及一種構建知識圖譜的方法、電子設備和存儲介質。
背景技術
實體和關系的抽取是自然語言處理中構建知識圖譜的關鍵部分和主要環節。傳統的流水線方法首先抽取實體,然后識別實體對之間的關系。這種方法依賴大量的人工標注語料并且關系抽取過程受到實體抽取結果的影響。因此如何避免大量人工標注同時提高實體和關系抽取的準確率,是本領域需要解決的問題。
發明內容
有鑒于此,本申請的目的在于提出一種構建知識圖譜的方法、電子設備和存儲介質。
作為本申請的一個方面,提供了一種構建知識圖譜的方法,包括:
獲取目標文本,所述目標文本包括被標注的部分實體;
基于所述目標文本,創建第一特征向量集合;
根據所述第一特征向量集合,得到至少一個第一候選實例集合;
利用強化學習的代理對所述第一候選實例集合進行篩選,得到至少一個目標實例;
利用所述至少一個目標實例,創建第二特征向量集合;
根據所述第二特征向量集合,得到至少一個第二候選實例集合;
基于所述至少一個第二候選實例集合,構建知識圖譜。
可選的,所述創建第一特征向量集合包括:
獲取目標文本的樣本集,所述樣本集包括被標注的部分實體;
創建第一子特征向量集合,包括由每一個被標注的頭實體,掃描目標文本根據所述被標注實體本身以及上下文的語義文本信息形成的三元組的集合;以及
創建第二子特征向量集合,包括由每一個被標注的尾實體,掃描目標文本根據所述被標注實體本身以及上下文的語義文本信息形成的三元組的集合;以及
創建第三子特征向量集合,包括由每一對被標注的頭實體和尾實體,掃描目標文本根據所述被標注實體本身和上下文的語義文本信息以及所述頭實體和尾實體之間語義文本信息形成的五元組的集合。
可選的,所述根據所述第一特征向量集合,得到至少一個第一候選實例集合包括:
用聚類算法對所述第一特征向量集合進行聚類,生成由多個第一特征向量聚合形成的多個向量集合作為抽取模式p;
基于所述目標文本,創建預選實例向量集合;
計算所述預選實例向量與所述抽取模式p之間的余弦相似度;
若所述由多個第一特征向量聚合形成的抽取模式p中超過一半的所述第一特征向量與所述預選實例向量的余弦相似度高于閾值τsim,
則將對應的所述預選實例向量記為可由抽取模式p匹配得出的第一候選實例。
可選的,所述基于所述目標文本,創建預選實例向量集合包括:
掃描目標文本,提取所述目標文本中所有分詞或分詞對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210722648.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:熱水器控制方法、裝置、介質及熱水器
- 下一篇:一種作動器控制器系統





