[發明專利]一種處理數據的方法、裝置、電子設備以及存儲介質在審
| 申請號: | 202110604342.4 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113486219A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 馬偉杰;江敏;夏鑫;許迪凡 | 申請(專利權)人: | 杭州數瀾科技有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06Q50/16 |
| 代理公司: | 北京市聯德律師事務所 11361 | 代理人: | 黃大正;張來光 |
| 地址: | 311121 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 處理 數據 方法 裝置 電子設備 以及 存儲 介質 | ||
1.一種處理數據的方法,所述方法涉及與來自不同數據來源的多套用戶數據分別對應的多個用戶,每套所述用戶數據包括多個字段,所述方法包括:
將所述多個用戶兩兩匹配,將符合弱匹配規則的兩個用戶組成一個用戶組,生成包括至少一個用戶組的候選集;
針對所述候選集中的任一用戶組,分別確定所述用戶組中的兩個用戶分別對應的用戶數據的多個字段中指定字段的字段匹配度;
對于所述候選集中的每一個用戶組,基于對所述指定字段所確定的字段匹配度以及對應字段的字段權重,計算出該用戶組的綜合匹配度;以及
在所述候選集中,將其綜合匹配度符合預定條件的用戶組中的兩個用戶判定為相同用戶。
2.根據權利要求1所述的方法,在所述將綜合匹配度符合預定條件的用戶組中的兩個用戶判定為相同用戶的步驟之后,還包括:
將所述候選集中被判定為相同用戶的兩個用戶之間建立直接聯通關系;
將具有直接或間接聯通關系的用戶置入同一子圖;以及
為所述子圖生成唯一用戶標識。
3.根據權利要求2所述的方法,其中所述方法產生多個子圖,并且在為每個子圖生成唯一用戶標識后,所述方法還包括:
若一新用戶分別與兩個或更多子圖中的用戶被判定為相同用戶,則將所述兩個或更多子圖合成為一個新子圖,并將所述新用戶置入所述新子圖。
4.根據權利要求3所述的方法,所述將所述新用戶置入所述新子圖后,還包括:
在所述兩個或更多子圖分別對應的唯一用戶標識中選擇數值最小的唯一用戶標識,作為所述新子圖的唯一用戶標識。
5.根據權利要求1所述的方法,所述指定字段的字段匹配度的確定包括:
獲取所述用戶組中的第一用戶在指定字段的第一字段值;
獲取所述用戶組中的第二用戶在所述指定字段的第二字段值;
獲取預先配置的匹配表,所述匹配表包括為每個指定字段對應設定的至少一種匹配情況,以及為每種匹配情況對應設定的匹配度;
在為所述指定字段預先設定的至少一種匹配情況中查找到所述第一字段值和第二字段值所符合的匹配情況,并將對應的匹配度確定為所述指定字段的字段匹配度。
6.根據權利要求1所述的方法,其中所述字段權重按照下述步驟確定:
遍歷所述候選集中的各個用戶組,將其中兩個用戶符合強關聯規則的用戶組置入強關聯集,并將其中兩個用戶在任一指定字段的字段值相同的用戶組置入與該指定字段對應的字段集;以及
將所述強關聯集和與一指定字段對應的字段集中的用戶組重合度確定為該指定字段的置信度,并根據所述置信度確定該指定字段的字段權重。
7.根據權利要求6所述的方法,所述將所述強關聯集和與一指定字段對應的字段集中的用戶組重合度確定為該指定字段的置信度的步驟包括:
對于指定字段k、與之對應的字段集Ak以及Ak包含的用戶組的數量,|Ak|,確定字段集Ak與所述強關聯集B的交集,并將所述交集在Ak中的數量占比|Ak∩B|/|Ak|確定為所述指定字段k的置信度。
8.根據權利要求6所述的方法,所述根據所述置信度確定所述指定字段的字段權重的步驟包括:
將所述置信度代入sigmoid函數的反函數,得到所述指定字段的字段匹配度與所述指定字段的字段權重的乘積的加和值;以及
將所述加和值和所述字段匹配度代入線性回歸方程,擬合參數后得到指定字段的字段權重。
9.根據權利要求1所述的方法,所述弱匹配規則是:兩個用戶的手機號或證件號至少有一個非空且相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州數瀾科技有限公司,未經杭州數瀾科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110604342.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:驅動電路和包括其的電器
- 下一篇:一種光儲控制模塊、光儲控制方法以及光儲系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





