[發明專利]一種實體對齊方法、裝置、設備及介質有效
| 申請號: | 201911040304.X | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110795572B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 王策;杜東 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 聶秀娜 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 對齊 方法 裝置 設備 介質 | ||
本申請提供的實體對齊方法,可用于人工智能領域的知識庫中的實體對齊,包括:獲取所有實體的屬性信息,屬性信息為與實體相關的文本信息;對屬性信息進行切詞,得到單詞集合;獲取單詞集合中各個單詞的詞向量,得到詞向量集合;根據詞向量集合,獲取每個詞向量所在文本的文本屬性值向量;根據每個實體所包含文本的文本屬性值向量,獲取每個實體的實體相似度向量;判定實體相似度向量的相似度高于預設值的兩個實體為相似實體,以實現實體對齊。本申請實施例還提供一種裝置、設備及介質,通過自然語言處理技術將詞向量轉化為文本向量的方式,將實體的屬性信息向量化,從而通過語義分析的方式應用了實體的文本特征,提升了實體對齊的準確性。
技術領域
本發明涉及計算機技術領域,更具體地說,涉及一種實體對齊方法、裝置、設備及介質。
背景技術
實體(Entity)是指客觀存在并可相互區別的事物,包括具體的人、事、物、抽象的概念或聯系,例如:球員A所在的球隊為隊伍B,則球員A和隊伍B 都是實體,他們的關系就是所屬球隊和球員關系,球員A---所屬球隊---隊伍 B,隊伍B---球員---球員A。
知識庫中包含多種類別的實體。實體對齊(Entity Alignment)也被稱作實體匹配(Entity Matching),是指對于異構數據源知識庫中的各個實體,找出屬于現實世界中的同一實體。例如對于“張三”實體而言,A網站上記錄有關于張三的百科資料,B網站上同樣記錄有關于張三的簡介信息,在AB兩個網站上所記載的張三為同一實體,因此需要通過實體對齊的方式將兩個中所記錄的實體判定為同一實體,以在知識庫關于“張三”的詞條中實現實體對齊。
知識庫中的實體通過自然語言進行記錄,需要通過自然語言處理(NatureLanguage processing,NLP)進行實體對齊,自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系。自然語言處理技術通常包括文本處理、語義理解、機器翻譯、機器人問答、知識圖譜等技術。
基于人工智能的實體對齊方案采用分類規則的方法具體包括:每個類型的實體定義一些關鍵屬性,計算這些屬性的相似度,每個屬性相似度加權求和,大于某個閾值則認為兩個實體相似,要進行融合。例如:對于A網站和B 網站的記載,張三的出生日期都是1961年9月27日,名稱相同且出生日期相同,因此判定AB兩個網站上鎖記載的張三是相同的實體。
然而在實際工作過程中,每個來源的知識圖譜實體信息準確度不能保證,導致實體的關鍵屬性存在噪音,當部分實體缺乏關于關鍵屬性的記載時,屬性值的相似度無法計算,導致實體對齊不能實現,同時,由于文本描述方式多樣化,沒有使用實體文本信息的深度語義特征。
因此,現有技術中的實體對齊方式還有待于改進。
發明內容
有鑒于此,為解決上述問題,本發明提供的技術方案如下:
一種實體對齊方法,包括:
獲取所有實體的屬性信息,所述屬性信息為與所述實體相關的文本信息;
對所述屬性信息進行切詞,得到單詞集合;
獲取所述單詞集合中各個單詞的詞向量,得到詞向量集合;
根據所述詞向量集合,獲取每個詞向量所在文本的文本屬性值向量;
根據每個所述實體所包含文本的所述文本屬性值向量,獲取每個實體的實體相似度向量;
判定所述實體相似度向量的相似度高于預設值的兩個實體為相似實體,以實現實體對齊。
一種實體對齊裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911040304.X/2.html,轉載請聲明來源鉆瓜專利網。





