[發明專利]實體比較方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202110362358.9 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113705236A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 楊石兵;徐也;沈卓;荊寧 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/35;G06F16/36 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 王花麗;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 比較 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本申請提供了一種實體比較方法、裝置、設備及計算機可讀存儲介質,涉及人工智能技術領域,所述方法包括:分別獲取待比較實體對中第一實體的屬性信息和第二實體的屬性信息;基于第一實體的屬性信息和第二實體的屬性信息,確定待比較實體對的描述特征;描述特征用于表征第一實體的屬性信息和第二實體的屬性信息的語義特征;基于第一實體的屬性信息和第二實體的屬性信息,確定待比較實體對的統計特征;統計特征用于表征第一實體的屬性信息和第二實體的屬性信息之間的關聯度;根據描述特征和統計特征,確定實體比較結果;實體比較結果用于表征第一實體和第二實體是否為同一實體。通過本申請提供的實體比較方法,可以提升實體比較方法的泛化能力。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種實體比較方法、裝置、設備及計算機可讀存儲介質。
背景技術
人工智能(Artificial Intelligence,AI)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法、技術及應用系統。其中,自然語言處理(Nature Language processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向,該研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以自然語言處理與語言學的研究有著密切的聯系。自然語言處理技術通常包括文本處理、語義理解、機器翻譯、機器人問答、知識圖譜等技術。
在建立知識圖譜的過程中,對于網絡資源中爬取的實體,經常存在大量的重名現象,在分析理解文本的時候,需要進行實體消歧,以明確實體的正確指向具有非常大的現實意義。
傳統技術中需要針對不同實體類型建立不同的匹配模型,可以看出,傳統技術只能完成針對垂類實體或單一實體類型的匹配任務,泛化能力較差。
發明內容
本申請實施例提供一種實體比較方法、裝置、設備及計算機可讀存儲介質,能夠適用于多種實體類型的實體比較任務,也可以適用于不同實體類型之間的實體比較任務,由此提升了本申請實體比較方法的應用范圍和泛化能力。
本申請實施例的技術方案是這樣實現的:
本申請實施例提供一種實體比較方法,包括:分別獲取待比較實體對中第一實體的屬性信息和第二實體的屬性信息;基于第一實體的屬性信息和第二實體的屬性信息,確定待比較實體對的描述特征;描述特征用于表征第一實體的屬性信息和第二實體的屬性信息的語義特征;基于第一實體的屬性信息和第二實體的屬性信息,確定待比較實體對的統計特征;統計特征用于表征第一實體的屬性信息和第二實體的屬性信息之間的關聯度;根據描述特征和統計特征,確定實體比較結果;實體比較結果用于表征第一實體和第二實體是否為同一實體。
在本申請的一些實施例中,所述基于第一實體的屬性信息和第二實體的屬性信息,確定待比較實體對的描述特征,包括:根據第一實體的屬性信息和第二實體的屬性信息,確定第一實體對應的至少一個實體屬性和第二實體對應的至少一個實體屬性;根據第一實體對應的至少一個實體屬性生成第一實體描述文本,根據第二實體對應的至少一個實體屬性生成第二實體描述文本;基于第一實體描述文本和第二實體描述文本,得到描述特征。
在本申請的一些實施例中,所述根據第一實體對應的至少一個實體屬性生成第一實體描述文本,根據第二實體對應的至少一個實體屬性生成第二實體描述文本,包括:根據第一實體的實體類型和第二實體的實體類型,確定第一實體中每一實體屬性對應的權重和第二實體中每一實體屬性對應的權重;基于第一實體中至少一個實體屬性和每一實體屬性對應的權重,確定第一實體描述文本;基于第二實體中至少一個實體屬性和每一實體屬性對應的權重,確定第二實體描述文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362358.9/2.html,轉載請聲明來源鉆瓜專利網。





