[發明專利]網絡賬號識別匹配方法有效
| 申請號: | 201510047747.7 | 申請日: | 2015-01-30 |
| 公開(公告)號: | CN104573094B | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 王明興;吳穎徽;馬帥;湯南;賈西貝 | 申請(專利權)人: | 深圳市華傲數據技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 趙永輝 |
| 地址: | 518057 廣東省深圳市南山區高新區中*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡賬號 匹配規則 歸并 記錄 匹配 大規模網絡 賬號識別 包處理 預定義 串聯 傳遞 | ||
本發明涉及一種網絡賬號識別匹配方法。該方法包括:步驟10、根據預定義的匹配規則所需的屬性整理網絡賬號;步驟20、對于每個匹配規則,網絡賬號如果具有該匹配規則所需的所有屬性,則將該網絡賬號的該所有屬性的內容串聯組成屬性串,形成該屬性串與該網絡賬號的記錄id的對應關系;步驟30、將對應于相同屬性串的記錄id歸并在一起;步驟40、對每個實體人的標識所具有的記錄id廣播其所屬的實體人,形成記錄id與其所屬實體人的標識的對應關系,將對應于相同記錄id的實體人的標識歸并在一起,對歸并在一起的實體人的標識進行傳遞閉包處理得到新的實體人的標識;步驟50、反復進行步驟40,直至實體人沒有改變。本發明能夠用于大規模網絡賬號識別匹配。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種網絡賬號識別匹配方法。
背景技術
隨著互聯網技術的發展,網民在各類網站、應用上注冊的賬號快速增長。主流應用如QQ,淘寶、163郵箱、智聯招聘,去哪兒網幾乎是人手一號。這些賬號的基本資料和活動信息蘊藏著大量與實體人有關的信息,可以說是一個數據油田。然而,同一個實體人,各類賬號之間的數據是分離的,同一類型賬號(比如有多個QQ號)數據也是分離的,這對數據的提取和分析造成了障礙,如果能識別哪些賬號屬于同一個實體人,將使數據大幅度增值。
網絡賬號識別的難點在于賬號的數據量非常之大,各類賬號之間結構差異大,賬號也處在不斷的更新、增長之中,這也符合大數據的3V特性,即Volume(數據量),Variance(數據種類),Velocity(處理速度)。如何從海量的、異構的、動態的賬號中識別出屬于同一個人的網絡賬號,是技術的重難點。
發明內容
本發明的目的在于提供一種網絡賬號識別匹配方法,可以用于大規模網絡賬號識別匹配。
為實現上述目的,本發明提供一種網絡賬號識別匹配方法,包括:
步驟10、根據預定義的匹配規則所需的屬性整理網絡賬號,以唯一的記錄id作為相應網絡賬號的標識;
步驟20、對于每個匹配規則,網絡賬號如果具有該匹配規則所需的所有屬性,則將該網絡賬號的該所有屬性的內容串聯組成屬性串,形成該屬性串與該網絡賬號的記錄id的對應關系;
步驟30、將對應于相同屬性串的記錄id歸并在一起,以歸并在一起的記錄id代表同一實體人并作為相應實體人的標識;
步驟40、對每個實體人的標識所具有的記錄id廣播其所屬的實體人,形成記錄id與其所屬實體人的標識的對應關系,將對應于相同記錄id的實體人的標識歸并在一起,對歸并在一起的實體人的標識進行傳遞閉包處理得到新的實體人的標識;
步驟50、反復進行步驟40,直至實體人沒有改變。
其中,步驟10包括:
步驟101、根據匹配規則整理出所需要的屬性;
步驟102、對于每個網絡賬號數據,生成一個唯一的記錄id;
步驟103、根據所需要的屬性提取網絡賬號對應的值,并加上記錄id,生成一行新的數據;如果網絡賬號不存在某屬性或存在但內容為空或者不合法,則對應屬性的內容最終結果為空。
其中,步驟20中,所述內容以特定的符號串聯起來組成屬性串。
其中,步驟40包括:
步驟401、對每個實體人的標識中的記錄id廣播其所屬的實體人,生成包含記錄id與其所屬實體人的標識的鍵值對;通過以鍵值對形式記錄對應關系,可以方便后續的歸并操作,并且進一步可以方便于移植到Hadoop平臺;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市華傲數據技術有限公司,未經深圳市華傲數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510047747.7/2.html,轉載請聲明來源鉆瓜專利網。





