[發明專利]數據處理方法、裝置、存儲介質和電子裝置在審
| 申請號: | 201711217695.9 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN110019519A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 黃婷 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/28 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據集合 融合 相似度 存儲介質 第一條件 電子裝置 數據處理 第一數據 技術數據 目標關系 目標融合 指示目標 數據源 集合 合并 重復 | ||
本發明公開了一種數據處理方法、裝置、存儲介質和電子裝置。其中,該方法包括:獲取至少兩個數據集合,其中,至少兩個數據集合中的數據來自不同的數據源;將至少兩個數據集合中,相似度符合第一條件的兩個第一數據集合進行融合,得到第一融合結果,其中,相似度用于指示兩個數據集合中數據的屬性之間的相關程度,第一融合結果中的數據均用于指示目標對象、且第一融合結果包括的數據不重復;將至少兩個數據集合中,相似度不符合第一條件、數據之間的目標關系符合第二條件的第二數據集合進行融合,得到第二融合結果;合并第一融合結果和第二融合結果中的數據,得到目標融合結果。本發明解決了相關技術數據融合的效率低的技術問題。
技術領域
本發明涉及計算機領域,具體而言,涉及一種數據處理方法、裝置、存儲介質和電子裝置。
背景技術
目前,在數據處理中,數據融合在不同領域有不同稱謂,早在數據庫領域,找出不同數據集的相同對象被稱為記錄鏈接(record linkage)或記錄匹配(record matching)。近年來,在知識圖譜領域,數據融合也被稱為實體對齊,是判斷不同知識庫中的兩個實體是否指向同一對象的過程。
很多實體對齊的算法已被提出。比如,基于概率模型,利用實體對之間的屬性的相似度,來判斷兩個實體是匹配、可能匹配,還是不匹配。后續有許多其它算法建立在上述基于概率模塊匹配的研究基礎上,這類算法思想簡單,但是沒有考慮實體與實體之間結構上的相似度,因此,只適用于特定領域的實體對齊,其算法召回率和應用范圍都具有一定的局限性。
隨著統計學習以及機器學習的發展,很多機器學習算法被應用到實體匹配中。比如,將算法劃分為有監督或半監督機器學習、基于主動學習以及無監督機器學習這三類。這類基于機器學習的算法,通常需要較多的參數,并且容易出現過擬合的問題。如果是單機版,往往效率較低,只適用較小的數據集。
另外,在對兩個數據集做數據融合時,如果每兩個實體都計算它們的相似度,那么算法的復雜度將是數據集大小的平方級別,不僅低效,并且很多計算也是不必要的。
因而,有很多索引技術被提出,一種基本的分區索引技術是直接選擇實體屬性作為索引鍵值進行構建,然后將具有相同索引鍵值的實體分配到同一區塊,使得相似度匹配只在同一區塊中進行。但是目前還沒有從工程角度,完整地給出數據融合的整個系統的實現過程,數據融合的效率低。
針對上述的數據融合的效率低的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種數據處理方法、裝置、存儲介質和電子裝置,以至少解決相關技術數據融合的效率低的技術問題。
根據本發明實施例的一個方面,提供了一種數據處理方法。該方法包括:獲取至少兩個數據集合,其中,至少兩個數據集合中的數據來自不同的數據源;將至少兩個數據集合中,相似度符合第一條件的兩個第一數據集合進行融合,得到第一融合結果,其中,相似度用于指示兩個數據集合中數據的屬性之間的相關程度,第一融合結果中的數據均用于指示目標對象、且第一融合結果包括的數據不重復;將至少兩個數據集合中,相似度不符合第一條件、數據之間的目標關系符合第二條件的第二數據集合進行融合,得到第二融合結果,其中,第二融合結果中的數據均用于指示目標對象、且第二融合結果包括的數據不重復;合并第一融合結果和第二融合結果中的數據,得到目標融合結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711217695.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法及設備
- 下一篇:業務執行方法、系統及裝置





