[發明專利]一種基于網絡映射的社交網絡中異常用戶檢測方法有效
| 申請號: | 201710541257.1 | 申請日: | 2017-07-05 |
| 公開(公告)號: | CN107835113B | 公開(公告)日: | 2020-09-08 |
| 發明(設計)人: | 鄭子彬;葉方華;周育人 | 申請(專利權)人: | 中山大學 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58 |
| 代理公司: | 廣東廣信君達律師事務所 44329 | 代理人: | 楊曉松 |
| 地址: | 510275 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡 映射 社交 異常 用戶 檢測 方法 | ||
1.一種基于網絡映射的社交網絡中異常用戶檢測方法,其特征在于:包括以下步驟:
S1、利用網絡爬蟲技術爬取社交網絡平臺的用戶數據;
S2、對爬取到的用戶數據進行預處理,構建用戶社交關系網絡圖G;
S3、基于用戶社交關系網絡圖G,利用node2vec將用戶的社交關系轉化為低維的向量表征;
S4、融合用戶多維度的向量表征得到最終的向量表征;
S5、基于用戶的特征向量進行聚類,預測用戶是正常用戶,還是異常用戶,如果是異常用戶,并給出異常類型;
所述步驟S2中預處理步驟如下:
S21、將爬取到的用戶數據分為四個維度,分別為用戶基本信息、用戶行為特征、用戶興趣愛好以及用戶好友關系;
S22、將步驟S21中所述用戶基本信息、用戶行為特征、用戶興趣愛好三個維度的用戶數據分別對應處理成三個含有多維的特征向量;
S23、將步驟S22得到的三個特征向量拼接在一起;
S24、處理用戶好友關系的數據,并與步驟S23拼接在一起的特征向量V0配合構建用戶社交關系網絡圖G;
所述步驟S22中用戶興趣愛好的處理主要依據LDA主題模型,具體步驟如下:
1)分詞:
對與用戶相關的每一條消息文本d進行分詞處理,去掉停用詞、標點符號和特殊符號等與主題無關的詞,得到該消息的單詞序列<w1,w2,w3,…,wn>,其中wi表示第i個單詞,設d一共有n個單詞;所有的消息內容的集合記為D,即D={d1,d2,d3,…,dm},設總共有m條消息內容;
2)生成每條消息的主題:
LDA假設一篇文檔的主題分布服從某個概率分布p(t|d),同時也假設在給定某個主題t的前提下,單詞也服從某個概率分布p(w|t),一篇文章d包含單詞w的概率為:
p(w|d)=∑tp(w|t)*p(t|d),
考慮所有的文檔,采用矩陣形式來描述上述關系,即:
其中,D的元素表示詞頻,T的行向量表示文檔的主題分布,W的列向量表示主題的單詞分布;
通過統計分析得到p(w|d)的經驗分布并求解T和W,使得T和W的乘積盡可能的與吻合;T和W的求解目標函數為:
其中,第一項表示T和W的乘積應盡可能的與吻合,后兩項為正則項;
3)生成用戶興趣愛好的特征向量:
在求得每條消息的主題之后,針對每一個用戶u,其興趣愛好特征向量按下式求解:
其中,h表示與u相關的消息數,Tu表示與u相關的消息的主題分布。
2.根據權利要求1所述的一種基于網絡映射的社交網絡中異常用戶檢測方法,其特征在于:所述步驟S24處理用戶好友關系的數據,并與步驟S23拼接在一起的特征向量V0配合構建用戶社交關系網絡圖G的具體步驟如下:
1))基于好友、粉絲和關注情況構造一個有向無權圖G0;
2))基于有向無權圖G0,在用戶和其二度好友之間構建一條賦予權值0.5的邊,和一度好友之間連邊的權值設為1.0,得到有權圖G0';
3))計算有權圖G0'中任意一條邊e=(u,v)的權值,得出有向邊權的用戶社交關系網絡圖G。
3.根據權利要求2所述的一種基于網絡映射的社交網絡中異常用戶檢測方法,其特征在于:所述步驟3))中任意一條邊e=(u,v)的權值的計算公式如下:
wt(e)=wt0*wt1*wt2,
其中,wt0反映u和v是一度好友還是二度好友,wt1反應u和v的共同好友是多還是少,wt2反映u和v的興趣愛好和行為特征等是否相似。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710541257.1/1.html,轉載請聲明來源鉆瓜專利網。





