[發(fā)明專利]基于多個數(shù)據(jù)源的自然人數(shù)據(jù)處理方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201711088455.3 | 申請日: | 2017-11-08 |
| 公開(公告)號: | CN107862047B | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計)人: | 錢志龍;朱俊贏;馮磊;管大業(yè);徐兆鵬 | 申請(專利權(quán))人: | 愛財科技有限公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/9032;G06F16/31 |
| 代理公司: | 杭州裕陽聯(lián)合專利代理有限公司 33289 | 代理人: | 姚宇吉 |
| 地址: | 310000 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 數(shù)據(jù)源 自然人 數(shù)據(jù)處理 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于多個數(shù)據(jù)源的自然人數(shù)據(jù)處理方法和系統(tǒng),其中方法包括對多個數(shù)據(jù)源的自然人數(shù)據(jù)表的用戶數(shù)據(jù)中添加唯一編號信息和加入當(dāng)前時間信息,得到用戶時間編碼數(shù)據(jù);根據(jù)列表列名信息對數(shù)據(jù)源兩兩進(jìn)行并行處理,得到自然人數(shù)據(jù)表內(nèi)列表列名的相似度信息;在當(dāng)前時間,根據(jù)圖中的相似度信息和預(yù)設(shè)閾值將數(shù)據(jù)源進(jìn)行合并,同時將合并的自然人數(shù)據(jù)表所有時間對應(yīng)的用戶時間編碼數(shù)據(jù)按照編碼極值分配為超級身份標(biāo)識;最后根據(jù)超級身份標(biāo)識對自然人數(shù)據(jù)表進(jìn)行回溯處理得到多個數(shù)據(jù)源歸類后的自然人信息表。本發(fā)明有效避免了相同超級身份標(biāo)識的產(chǎn)生;減少后續(xù)數(shù)據(jù)處理對資源造成的浪費,而且提高數(shù)據(jù)處理效率,簡化自然人識別的計算復(fù)雜度。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于多個數(shù)據(jù)源的自然人數(shù)據(jù)處理方法和系統(tǒng)。
背景技術(shù)
倒排索引是現(xiàn)代搜索引擎中使用最廣泛的數(shù)據(jù)結(jié)構(gòu),它由字典和倒排列表兩部分組成。其中字典保存了對文檔集合進(jìn)行處理后得到的詞項、詞項的文檔頻率以及一個指向該詞項所對應(yīng)倒排列表的指針;倒排列表由多個倒排記錄構(gòu)成,其中每個倒排記錄對應(yīng)包含該詞項的一篇文檔,倒排記錄中記錄的信息包括:文檔序號(稱為docID),詞項頻率(詞項在該文檔中出現(xiàn)的次數(shù)),位置信息(詞項在文檔中的出現(xiàn)位置)等。
目前,自然人識別的主要方案是利用倒排索引技術(shù)根據(jù)自然人的多維度信息識別自然人,再根據(jù)兩自然人的信息匹配數(shù)量是否超過某一閾值來識別自然人是否為同一自然人。而當(dāng)前識別自然人算法為T+1方式定時執(zhí)行,雖然對于同一自然人的多條記錄在T時和T+1時仍合并為同一自然人,但是對于同一自然人的多條記錄不同時間分配到的super_id(超級身份標(biāo)識)可能相同,這就導(dǎo)致了數(shù)據(jù)冗余,在后續(xù)數(shù)據(jù)處理時,不僅需要花費大量的資源處理相同super_id,浪費存儲資源;而且降低數(shù)據(jù)處理效率,響應(yīng)時間長。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于多個數(shù)據(jù)源的自然人數(shù)據(jù)處理方法和系統(tǒng),在對同一自然人的多條記錄在T時和T+1時合并為同一自然人時,有效避免了相同超級身份標(biāo)識的產(chǎn)生;減少后續(xù)數(shù)據(jù)處理對資源造成的浪費,而且提高數(shù)據(jù)處理效率,同時簡化自然人識別的計算復(fù)雜度,避免后續(xù)倒排索引算法對自然人識別算法的影響。
本發(fā)明提供了一種基于多個數(shù)據(jù)源的自然人數(shù)據(jù)處理方法,包括以下步驟;
獲取來自多個數(shù)據(jù)源的自然人數(shù)據(jù)表,所述自然人數(shù)據(jù)表中包括用戶數(shù)據(jù)、列表表名信息以及列表列名信息;對各個所述用戶數(shù)據(jù)添加唯一編號信息,得到用戶編號數(shù)據(jù);
根據(jù)當(dāng)前時間信息對用戶編號數(shù)據(jù)做時間識別處理,得到用戶時間編碼數(shù)據(jù);同時,根據(jù)所述列表表名信息將所述用戶時間編碼數(shù)據(jù)存入到圖的頂點集;
根據(jù)所述列表列名信息對數(shù)據(jù)源兩兩進(jìn)行并行處理,得到自然人數(shù)據(jù)表內(nèi)列表列名的相似度信息;根據(jù)預(yù)設(shè)閾值將所述相似度信息存入圖的邊集;
根據(jù)圖中的所述相似度信息和預(yù)設(shè)閾值將數(shù)據(jù)源進(jìn)行合并,并根據(jù)合并結(jié)果獲取對應(yīng)的當(dāng)前用戶時間編碼數(shù)據(jù)和前一次用戶時間編碼數(shù)據(jù);
根據(jù)編碼極值選取所述當(dāng)前用戶時間編碼數(shù)據(jù)和前一次用戶時間編碼數(shù)據(jù)分配為超級身份標(biāo)識;并根據(jù)所述超級身份標(biāo)識對自然人數(shù)據(jù)表進(jìn)行回溯處理,得到多個數(shù)據(jù)源歸類后的自然人信息表。
作為一種可實施方式,所述根據(jù)所述列表列名信息對數(shù)據(jù)源兩兩進(jìn)行并行處理,得到自然人數(shù)據(jù)表內(nèi)列表列名的相似度信息;根據(jù)預(yù)設(shè)閾值將所述相似度信息存入圖的邊集,包括以下步驟;
任意選取兩個數(shù)據(jù)源的列列表列名的公共列信息,并對所述公共列信息的相同列寬進(jìn)行求同處理,得到共同列寬值;
并根據(jù)每個所述共同列寬值對數(shù)據(jù)源的自然人數(shù)據(jù)表中進(jìn)行合并分組,得到自然人分組數(shù)據(jù);
對每個同組的自然人分組數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系進(jìn)行相似度處理,得到相似度信息;并將相似度信息與預(yù)設(shè)閾值的進(jìn)行比較,根據(jù)比較結(jié)果將相似度信息存入圖的邊集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于愛財科技有限公司,未經(jīng)愛財科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711088455.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)同步處理方法、裝置和單點登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補充方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個數(shù)據(jù)源調(diào)節(jié)工業(yè)自動化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計算機設(shè)備
- 一種動態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問多數(shù)據(jù)源的方法及系統(tǒng)
- 自然人信息設(shè)置方法、系統(tǒng)及相應(yīng)的好友推薦方法、系統(tǒng)
- 一種人臉識別的方法、裝置及系統(tǒng)
- 一種人臉識別的裝置及其系統(tǒng)
- 商品銷售的商業(yè)方法
- 一種建立各標(biāo)識的關(guān)聯(lián)關(guān)系的方法以及相關(guān)設(shè)備
- 信息推送方法及終端、系統(tǒng)
- 基于自媒體交互的自然人信用算法
- 組織機構(gòu)相關(guān)人員關(guān)系的挖掘方法及裝置
- 企業(yè)自然人實體綜合判斷對齊方法及系統(tǒng)
- 自然人ID創(chuàng)建方法、存儲介質(zhì)、電子設(shè)備及系統(tǒng)
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





