[發明專利]數據處理的方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202010979265.6 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112100452A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 陳振興;王美青 | 申請(專利權)人: | 京東數字科技控股股份有限公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06K9/62;G06Q30/06;G06Q50/00 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 柴海平;臧建明 |
| 地址: | 100176 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明實施例提供一種數據處理的方法、裝置、設備及計算機可讀存儲介質,通過根據關聯關系圖生成每個用戶賬號的特征;使用每個用戶賬號的特征及對應標簽作為訓練數據訓練邏輯回歸模型;根據訓練好的邏輯回歸模型確定兩個用戶賬號之間的關聯權重,能夠通過有監督的邏輯回歸模型確定不同的關系類型對預測目標的影響從而確定權重,通過將兩個用戶賬號間存在的關系類型轉換為特征向量帶入邏輯回歸模型,根據邏輯回歸結果確定兩用戶賬號間存在的多種關系類型的關聯權重,根據任意兩個用戶賬號之間的關聯權重發現指定用戶賬號所在的目標社區,能夠增強社區劃分的結果與目標的相關性,準確地發現目標所在的社區,準確地識別詐騙團伙和推薦信息。
技術領域
本發明實施例涉及互聯網技術領域,尤其涉及一種數據處理的方法、裝置、設備及計算機可讀存儲介質。
背景技術
隨著互聯網技術的發展,各電商平臺,金融平臺等互聯網平臺擁有的用戶數量巨大。圖是一種能表示相互連接的事物及其關系的形式,互聯網平臺中用戶賬號之間的關聯關系可以通過圖的方式表示和存儲,包括節點和邊兩部分,節點是用戶賬號(或人),邊又稱關系,表示節點之間的關聯關系。
通過社區發現的方法可以社區發現可以分析得到圖中關聯密切的節點,可以廣泛應用于欺詐團伙識別、推薦等業務場景中。例如,通過社區發現方法的社區劃分結果,可以發現指定目標所在的社區,從而發現與指定目標關聯密切的用戶賬號(或人)。若指定目標是已知的詐騙用戶賬號,這樣就可以發現詐騙團伙。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:現有的社區發現方法中,不區分圖中邊的類型,邊的權重往往采用相等權重或者人為根據經驗指定邊的權重,導致社區發現方法的社區劃分結果不準確,無法準確識別指定目標的緊密關聯人群,無法準確識別出欺詐團伙和進行有效的信息推薦。
發明內容
本發明實施例提供一種數據處理的方法、裝置、設備及計算機可讀存儲介質,用以解決現有的社區發現方法的社區劃分結果不準確,無法準確識別指定目標的緊密關聯人群,無法準確識別出欺詐團伙和進行有效的信息推薦的問題。
第一方面,本發明實施例提供一種數據處理的方法,包括:
獲取用戶賬號的關聯關系圖,所述關聯關系圖包含各用戶賬號之間的關聯關系及關系類型;
根據所述關聯關系圖,生成每個用戶賬號的特征;
使用每個用戶賬號的特征及對應標簽作為訓練數據,訓練邏輯回歸模型;
根據訓練好的所述邏輯回歸模型,確定兩個用戶賬號之間的關聯權重;
根據任意兩個用戶賬號之間的關聯權重,發現指定用戶賬號所在的目標社區;
對所述目標社區內的用戶賬號進行相應處理。
第二方面,本發明實施例提供一種數據處理的方法,應用于互聯網平臺,所述互聯網平臺包括多個用戶注冊的用戶賬號,所述用戶賬號中存在至少一個對應指定類型的標簽的指定用戶賬號,所述方法包括:
獲取所述互聯網平臺中所有用戶賬號的關聯關系圖,所述關聯關系圖包含各用戶賬號之間的關聯關系及關系類型;
根據所述關聯關系圖,生成所述關聯關系圖中每個用戶賬號的特征;
使用每個用戶賬號的特征及對應標簽作為訓練數據,訓練邏輯回歸模型;
根據訓練好的所述邏輯回歸模型,確定兩個用戶賬號之間的關聯權重;
根據任意兩個用戶賬號之間的關聯權重,進行社區劃分,確定所述指定用戶賬號所在的目標社區;
對所述目標社區內的用戶賬號進行相應處理。
第三方面,本發明實施例提供一種數據處理的裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股股份有限公司,未經京東數字科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010979265.6/2.html,轉載請聲明來源鉆瓜專利網。





