[發(fā)明專利]一種社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110791106.8 | 申請日: | 2021-07-13 |
| 公開(公告)號: | CN113486243B | 公開(公告)日: | 2023-09-05 |
| 發(fā)明(設(shè)計)人: | 紀守領(lǐng);何平;張旭鴻;林昶廷 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06N3/047;G06N3/08;G06N20/00;G06Q50/00 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 社交 網(wǎng)絡(luò) 流量 黑灰產(chǎn) 自動 挖掘 方法 系統(tǒng) | ||
1.一種社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法,其特征在于,包括以下步驟:
(1)創(chuàng)建“蜜罐”用戶,在社交網(wǎng)絡(luò)中對參與假流量攻擊的惡意用戶進行誘捕;
(2)采用自然語言處理技術(shù)對誘捕得到的惡意用戶的微博內(nèi)容進行數(shù)據(jù)分析,獲得惡意用戶的微博內(nèi)容層面的特征,包括:
(2-?。τ谡T捕得到的參與假流量攻擊的惡意用戶,選取其所有不包含任何話題的微博,標(biāo)記為正樣本;
在社交網(wǎng)絡(luò)中隨機采集正常用戶所發(fā)的微博,標(biāo)記為負樣本;
將所有樣本打亂后分割成訓(xùn)練樣本、驗證樣本和測試樣本;
(2-ⅱ)將訓(xùn)練樣本輸入雙向自編碼表示變形器中進行向量計算,得到其輸出層第一個變形器的輸出向量;
(2-ⅲ)將輸出向量作為多層感知機的輸入,將多層感知機輸出結(jié)果作為Softmax層的輸入,計算每條微博屬于惡意用戶所發(fā)的概率或正常用戶所發(fā)的概率;
(2-ⅳ)使用隨機梯度下降算法更新雙向自編碼表示變形器和多層感知機的網(wǎng)絡(luò)參數(shù);
(2-ⅴ)采用驗證集測試雙向自編碼表示變形器和多層感知機的精確率,若所述精確率達到要求,則結(jié)束訓(xùn)練,否則繼續(xù)訓(xùn)練;
(2-ⅵ)對于一個用戶來說,采用雙向自編碼表示變形器和多層感知機對該用戶所發(fā)的所有微博進行預(yù)測,計算該用戶所發(fā)的所有微博中被識別為惡意用戶用于偽裝自身的微博的比例,將該比例作為該用戶在微博內(nèi)容層面的特征;
(3)對誘捕得到的惡意用戶的個人信息進行分析,獲得惡意用戶的個人信息層面的特征;
(4)在社交網(wǎng)絡(luò)中隨機選取正常用戶,根據(jù)步驟(2)中獲得惡意用戶微博內(nèi)容層面特征的方法和步驟(3)中獲得惡意用戶個人信息層面特征的方法分別提取正常用戶的微博內(nèi)容層面和個人信息層面的特征;
(5)運用機器學(xué)習(xí)算法,根據(jù)步驟(2)~(4)中提取的特征,訓(xùn)練分類器使之能區(qū)分正常用戶與惡意用戶;
(6)對于任意的社交網(wǎng)絡(luò)中的微博用戶,根據(jù)步驟(2)和(3)的方法分別提取用戶的微博內(nèi)容層面和個人信息層面的特征,并運用步驟(5)中訓(xùn)練好的分類器進行識別;
(7)對于步驟(6)中被識別為惡意用戶的微博用戶,基于規(guī)則對該微博用戶所發(fā)的微博進行篩選,挖掘出涉及假流量黑灰產(chǎn)的微博。
2.根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法,其特征在于,所述的訓(xùn)練樣本、驗證樣本和測試樣本的數(shù)量比為6:3:1。
3.根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法,其特征在于,步驟(2-ⅳ)中,使用隨機梯度下降更新雙向自編碼表示變形器和多層感知機的網(wǎng)絡(luò)參數(shù);學(xué)習(xí)率初始時為0.00002,每次在數(shù)據(jù)集上訓(xùn)練一輪后通過驗證集計算一下模型的損失,并存儲檢查點,訓(xùn)練若在驗證集上模型預(yù)測準確率下降則停止訓(xùn)練。
4.根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法,其特征在于,步驟(3)中,所述的用戶的個人信息層面的特征包括:
(a)該用戶是否認證;
(b)該用戶的粉絲數(shù)量;
(c)該用戶的關(guān)注數(shù)量;
(d)該用戶的微博數(shù)量;
(e)該用戶的賬號等級。
5.根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法,其特征在于,步驟(5)包括:
(5-i)將參與假流量攻擊的惡意用戶標(biāo)記為正樣本,將正常用戶標(biāo)記為負樣本,構(gòu)建訓(xùn)練集和驗證集;
(5-ii)提取訓(xùn)練樣本的微博內(nèi)容層面的特征和個人信息層面的特征;
(5-iii)將提取的訓(xùn)練樣本的特征值歸一化后作為XGBoost模型的輸入,對XGBoost模型進行訓(xùn)練;通過訓(xùn)練好的XGBoost模型對可疑微博用戶進行預(yù)測,識別獲取參與假流量攻擊的惡意用戶。
6.根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘方法,其特征在于,步驟(7)中,所述的規(guī)則為:對于一條微博,若其中含有話題,則將該微博分類為涉及假流量黑灰產(chǎn)的微博。
7.一種社交網(wǎng)絡(luò)假流量黑灰產(chǎn)自動挖掘系統(tǒng),其特征在于,包括系統(tǒng)顯示組件、數(shù)據(jù)采集組件和模型決策組件;
所述的系統(tǒng)顯示組件負責(zé)整個系統(tǒng)與使用者的交互;使用者通過系統(tǒng)顯示組件輸入目標(biāo)用戶的ID號碼,由系統(tǒng)顯示組件將ID號碼發(fā)送給數(shù)據(jù)采集組件;
所述的數(shù)據(jù)采集組件負責(zé)對目標(biāo)用戶的數(shù)據(jù)進行采集;數(shù)據(jù)采集組件在收到系統(tǒng)顯示組件發(fā)送來的ID號碼之后執(zhí)行數(shù)據(jù)采集程序,采集模型決策組件所需要的目標(biāo)用戶的數(shù)據(jù),對采集到的數(shù)據(jù)處理后以合適的格式發(fā)送給模型決策組件;
所述的模型決策組件負責(zé)對目標(biāo)用戶以及目標(biāo)用戶所發(fā)的微博進行預(yù)測;所述的模型決策組件包括訓(xùn)練好的雙向自編碼表示變形器和XGBoost模型;模型決策組件收到數(shù)據(jù)采集組件發(fā)送來的用戶數(shù)據(jù)后,首先調(diào)用訓(xùn)練好的雙向自編碼表示變形器對目標(biāo)用戶所發(fā)的微博進行預(yù)測,其次調(diào)用XGBoost模型對目標(biāo)用戶進行預(yù)測,最后將所有的預(yù)測結(jié)果傳回給系統(tǒng)顯示組件進行渲染顯示;
所述的自動挖掘系統(tǒng)根據(jù)權(quán)利要求1-6任一項所述的自動挖掘方法對社交網(wǎng)絡(luò)假流量黑灰產(chǎn)進行自動挖掘。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110791106.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對象搜索方法及裝置
- 針對嵌入式應(yīng)用上下文中的搜索的查詢意圖表達
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲介質(zhì)
- 動態(tài)社交圈確定方法、裝置、設(shè)備及存儲介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計算機設(shè)備及存儲介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種黑烏雞與白烏雞雜交制種方法
- 一種電商黑灰產(chǎn)輿情自動挖掘方法和系統(tǒng)
- 一種黑灰產(chǎn)推廣的關(guān)鍵詞查找方法
- 一種針對業(yè)內(nèi)共享黑產(chǎn)信息處理的方法及裝置
- 設(shè)備聚類方法、裝置、存儲介質(zhì)及電子設(shè)備
- 黑產(chǎn)設(shè)備識別方法、裝置、服務(wù)器及存儲介質(zhì)
- 自更新黑產(chǎn)特征的黑產(chǎn)識別方法及裝置
- 黑灰產(chǎn)手機號碼識別方法及系統(tǒng)
- 反欺詐黑產(chǎn)實體識別方法及系統(tǒng)
- 用于預(yù)測黑產(chǎn)攻擊趨勢的方法、裝置、電子設(shè)備及介質(zhì)





