[發明專利]一種檢測網絡水軍以及找到網絡水軍的方法有效
| 申請號: | 201110418586.X | 申請日: | 2011-12-14 |
| 公開(公告)號: | CN102571484A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 周異;申沛;陳凱;宋利;楊小康 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L29/08 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢測 網絡 水軍 以及 找到 方法 | ||
1.一種檢測網絡水軍的方法,其特征在于具體包括:
第一步,帳號特征模塊對帳號特征向量進行描述,這個向量包括多維;
第二步,帳號檢測模塊對收集的帳號,根據帳號特征向量符合機器人帳號特性的多少來檢測網絡水軍;
上述步驟中,用R表示機器人特征顯著性,帳號的特征描述向量有多個維度,第i個維度有一個權值a[i],被判斷滿足該維度條件的帳號會獲得a[i]的權值加成,即R=R+a[i],當最終權值R>Rmax,則該帳號為機器人帳號。
2.根據權利要求1所述的一種檢測網絡水軍的方法,其特征在于:所述帳號特征模塊,其中帳號特征描述向量維度包括:
向量維度1:帳號的關注人數是否異常;
向量維度2:關注人數與粉絲數的比值是否異常;
向量維度3:帳號所發原創微博的文字內容是否為抄襲所得;
向量維度4:帳號所發圖片內容是否為抄襲所得;
向量維度5:帳號轉發微博是否不帶評論;
向量維度6:帳號是否發廣告和垃圾信息;
向量維度7:帳號所發評論是否為抄襲;
向量維度8:帳號發帖內容的是否相似度高;
向量維度9:帳號發帖頻率是否異常;
向量維度10:帳號發帖間隔是否異常。
3.根據權利要求1或2所述的一種檢測網絡水軍的方法,其特征在于:所述帳號檢測模塊檢測網絡水軍,具體流程如下:
1)向量維度1:帳號的關注人數異常;
如果關注人數Nforward>FMAX,FMAX=300,則判斷滿足機器人特征,R=R+a[1],a[1]=5;
2)向量維度2:關注人數與粉絲數的比值異常;
如果關注人數與粉絲數的比值K>Kmax=5,或者K<Kmin=0.2,則判斷滿足機器人特征,R=R+a[2],a[2]=3;
3)向量維度3:帳號所發原創微博的文字內容為抄襲所得;
從帳號微博中選一句話出來進行搜索,把所有搜索出來的原創微博進行一種聚類,每一類中微博發布時間Wtime最小的微博是原創微博,而對于其余微博,如果相似度L>Lmax,則是抄襲微博;獲得除本帳號以外所有被認為抄襲了微博的帳號ID,轉到1)步,Lmax=90%;如果該帳號微博相似度L>Lmax,則判斷滿足機器人特征,R=R+a[3],a[3]=4;
4)向量維度4:帳號所發圖片內容為抄襲所得;
通過圖像處理技術判斷圖片中如果否有他人logo或者相互重疊的logo,則判斷滿足機器人特征,R=R+a[4],a[4]=4;
5)向量維度5:帳號轉發微博不帶評論;
不加評論的概率超過P>Pmax=95%,則判斷滿足機器人特征,R=R+a[5],a[5]=2;
6)向量維度6:帳號發廣告和垃圾信息;
通過語義識別判斷出帳號的評論是否為廣告,對于有鏈接的回復獲取其網址,打開網址,判斷該回復是不是在為這個網站打廣告,如果判斷成功,則判斷滿足機器人特征,R=R+a[6],a[6]=10;
7)向量維度7:帳號所發評論為抄襲;
對被該帳號轉發和評論的原微博的所有回復進行分析,首先對回復進行聚類,從而每一類中評論時間Rtime最小的回復認定為原創回復,回復與原創微博的相似度RS>RSmax的認為是抄襲回復,對除本帳號以外的所有RS>RSmax的ID,轉到1)步,如果本帳號RS>RSmax=90%,則判斷滿足機器人特征,R=R+a[7],a[7]=4;
8)向量維度8:帳號發帖內容的相似度高;
遍歷帳號所有微博,使用聚類,如果某一類中微博數量N>Nmax=50,則判斷滿足機器人特征,R=R+a[8],a[8]=4;
9)向量維度9:帳號發帖頻率異常;
遍歷帳號所有微博,獲取其發表時間,如果在任何至少1分鐘時間內發帖頻率F>Fmax=6條/min,則判斷滿足機器人特征,R=R+a[9],a[9]=3;
10)向量維度10:帳號發帖間隔異常;
遍歷帳號所有微博,獲取其發表時間,發帖時間規律性RE>REmax=10,則判斷滿足機器人特征,R=R+a[10];RE的獲取方法為:把所有微博時間做差,然后以秒為單位,若出現連續5以及以上個時間,這一組數字的方差小于1,則RE=RE+1,RE初值為0,a[10]=3;
當R>Rmax時,認為該帳號為機器人帳號,即為網絡水軍,Rmax=10。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110418586.X/1.html,轉載請聲明來源鉆瓜專利網。





