[發明專利]多源數據賬號關聯和裝置有效
| 申請號: | 201710678545.1 | 申請日: | 2017-08-10 |
| 公開(公告)號: | CN110019180B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 劉楊;顧振東;方暉;楊明川;孫靜博;錢兵;賈元昕;賀群;王仿坤;胡英婧;殷榮飛 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/25 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 王云飛 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 賬號 關聯 裝置 | ||
本發明公開一種多源數據賬號關聯和裝置。該方法包括:將不同類型數據源的用戶數據均轉換成三元組數據,其中,所述三元組數據包括地點、時間和出現次數;根據所述三元組數據確定第一賬號和第二賬號屬于同一用戶的聯合概率,其中,第一賬號為第一數據源的賬號,第二賬號為第二數據源的賬號,第一數據源和第二數據源為不同類型的數據源;若所述聯合概率大于預定值,則將第一賬號和第二賬號進行關聯。本發明使用聯合概率模型、對不同數據源中的賬號在時間和空間中的分布情況進行建模,從而計算賬號間的相似程度。本發明不依賴于用戶信息,適用于廣泛的數據源,特別是能夠實現線上、線下數據的用戶賬號關聯。
技術領域
本發明涉及大數據技術領域,特別涉及一種多源數據賬號關聯和裝置。
背景技術
在大數據行業里,將不同領域的數據(即多源數據)相互融合,往往能創造出更大的價值,例如銀行在做個人信用評估時,如果能結合這個人平時是否經常有拖欠水電汽暖費用、是否有違法記錄等情況,就可以更加全面的做出風險評估。
數據孤島是大數據行業面臨難題之一,在技術上這個問題核心是不同數據源的用戶賬號通常不同,當需要進行跨業務的數據合作時,往往會發現數據無法聯系。
現有的解決賬號關聯的技術主要有以下2種:
第一、通過計算2個賬號的注冊信息的相似度,若大于某個數值,則認為2個賬號屬于同一個人。這種方法無法解決有些用戶沒有注冊信息、或者用戶填寫信息有誤等情況,因此這種方法僅能分析部分賬號的關聯情況。
第二、使用社交關系,即計算2個賬號的好友重合度來判斷2個不同賬號是否屬于同一個人。這種方法的問題在于不是所有的數據都有用戶的社交關系,特別是線下的數據,如超市里會員的購物數據,飯店的會員數據等。因此種方法不具有普遍性。
發明內容
鑒于以上技術問題,本發明提供了一種多源數據賬號關聯和裝置,能夠實現線上、線下數據的用戶賬號關聯。
根據本發明的一個方面,提供一種多源數據賬號關聯方法,包括:
將不同類型數據源的用戶數據均轉換成三元組數據,其中,所述三元組數據包括地點、時間和出現次數;
根據所述三元組數據確定第一賬號和第二賬號屬于同一用戶的聯合概率,其中,第一賬號為第一數據源的賬號,第二賬號為第二數據源的賬號,第一數據源和第二數據源為不同類型的數據源;
若所述聯合概率大于預定值,則將第一賬號和第二賬號進行關聯。
在本發明的一個實施例中,所述根據所述三元組數據確定第一賬號和第二賬號屬于同一用戶的聯合概率包括:
獲取第一賬號和第二賬號同時同地出現的條件概率,其中,第一賬號和第二賬號屬于同一用戶,第一賬號為第一數據源的賬號,第二賬號為第二數據源的賬號,第一數據源和第二數據源為不同類型的數據源;
分別獲取第一賬號和第二賬號的邊緣條件概率;
根據所述條件概率和邊緣條件概率確定所述聯合概率。
在本發明的一個實施例中,所述獲取第一賬號和第二賬號同時同地出現的條件概率包括:
確定第一集合,其中,所述第一集合為第一賬號在第一時間和第一地點的出現次數達到第一次數的集合,所述第一次數為大于等于1的自然數;
確定第二集合,其中,所述第二集合為第二賬號在第一時間和第一地點的出現次數達到第二次數的集合,所述第二次數為大于等于1的自然數;
針對第一集合和第二集合的交集,獲取第一賬號和第二賬號同時同地出現的條件概率。
在本發明的一個實施例中,所述獲取第一賬號和第二賬號同時同地出現的條件概率包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710678545.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





