[發(fā)明專利]一種在微博平臺中捕獲水軍的方法有效
| 申請?zhí)枺?/td> | 201310017802.9 | 申請日: | 2013-01-17 |
| 公開(公告)號: | CN103095499A | 公開(公告)日: | 2013-05-08 |
| 發(fā)明(設(shè)計)人: | 陳凱;周曲;周異;林成峰 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26 |
| 代理公司: | 上海漢聲知識產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 平臺 捕獲 水軍 方法 | ||
1.一種在微博平臺中捕獲水軍的方法,其特征在于包括如下步驟:
第一步,通過新微博熱門話題或者名人微博的轉(zhuǎn)發(fā)列表,獲取嫌疑用戶,選取三個特征值的閾值即參與率的閾值Ma、平均重復(fù)度的閾值Mb、轉(zhuǎn)發(fā)重復(fù)度峰值的閾值Mr,利用該閾值過濾嫌疑用戶,并且通過人工觀察用戶是否具有水軍的行為特征,獲得初始水軍樣本S;閾值Ma、Mb、Mr含義分別為:對于確定的微博列表,單個用戶參與轉(zhuǎn)發(fā)的微博數(shù)量占總微博數(shù)量的比例,即參與率閾值Ma;用戶的總轉(zhuǎn)發(fā)次數(shù)和用戶參與的微博數(shù)量的比例,即平均重復(fù)度閾值Mb;用戶重復(fù)轉(zhuǎn)發(fā)單條微博的次數(shù)的最大值,即轉(zhuǎn)發(fā)重復(fù)度峰值閾值Mr;
第二步,獲取所有樣本水軍的粉絲列表L,按照預(yù)先設(shè)定的閾值Mc即在水軍樣本中關(guān)注的用戶數(shù)量或者數(shù)量占總數(shù)的比例,過濾得到和樣本中多個水軍關(guān)系密切的用戶列表L’;
第三步,獲取這些用戶的微博發(fā)布特征信息,包括用戶的所有微博中轉(zhuǎn)發(fā)的微博的數(shù)量Cr和用戶轉(zhuǎn)發(fā)的源微博Cs的數(shù)量;
第四步,利用第三步獲得的信息,計算用戶的平均重復(fù)特征值即平均每條微博重復(fù)轉(zhuǎn)發(fā)的次數(shù)和重復(fù)轉(zhuǎn)發(fā)次數(shù)的峰值,然后利用第一步設(shè)定的平均重復(fù)度的閾值Mb和轉(zhuǎn)發(fā)重復(fù)度峰值的閾值Mr進(jìn)行過濾,將兩個特征值都超過閾值的用戶判定為水軍;
第五步,將新得到的水軍加入到樣本中,之后選擇重復(fù)步驟二到步驟四的迭代過程。
2.根據(jù)權(quán)利要求1所述的在微博平臺中捕獲水軍的方法,其特征在于,上述第一步獲取初始水軍樣本具體如下:
1)選定特定熱門話題或者某個微博名人,獲取相關(guān)微博列表;
2)抓取這些微博的轉(zhuǎn)發(fā)列表,統(tǒng)計其中涉及的用戶和每個用戶的轉(zhuǎn)發(fā)次數(shù);
3)選定過濾用的三個特征值的閾值:參與率的閾值Ma與平均重復(fù)度的閾值Mb,Ma為0~100%,Mb大于等于1,轉(zhuǎn)發(fā)重復(fù)度峰值閾值Mr;從步驟2)得到的用戶中選出三個特征值即參與率、平均重復(fù)度、轉(zhuǎn)發(fā)重復(fù)度峰值超過所設(shè)定的閾值的所有用戶作為初始的水軍樣本S。
3.根據(jù)權(quán)利要求1或2所述的在微博平臺中捕獲水軍的方法,其特征在于,上述閾值設(shè)定方法:首先按照經(jīng)驗值設(shè)定三個特征的閾值,過濾一遍得到結(jié)果,對結(jié)果進(jìn)行小量抽樣驗證,計算準(zhǔn)確率;然后根據(jù)結(jié)果調(diào)整閾值,再過濾,再抽樣,反復(fù)調(diào)整多次使抽樣結(jié)果最佳,確定閾值。
4.根據(jù)權(quán)利要求1所述的在微博平臺中捕獲水軍的方法,其特征在于,上述第二步獲得與水軍樣本關(guān)系密切用戶的具體如下:
1)設(shè)定密切度閾值Mc,有兩種取法:單個用戶關(guān)注的水軍數(shù)量或者單個用戶關(guān)注的水軍數(shù)量占水軍樣本總數(shù)的比例;
2)計算每個用戶與水軍樣本的密切度,按照設(shè)定的閾值Mc進(jìn)行過濾,獲得三個特征值都超過閾值的用戶。
5.根據(jù)權(quán)利要求2或4所述的在微博平臺中捕獲水軍的方法,其特征在于,上述第四步,由第三步獲得的數(shù)據(jù),計算用戶對每條源微博的平均轉(zhuǎn)發(fā)數(shù)量以及重復(fù)轉(zhuǎn)發(fā)的次數(shù)的峰值,如果超過第一步中設(shè)定的平均重復(fù)度閾值Mb和重復(fù)度峰值閾值Mr,則判定用戶為水軍用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310017802.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種網(wǎng)絡(luò)水軍的探測與判定方法
- 一種在微博平臺中捕獲水軍的方法
- 微博水軍識別方法與設(shè)備
- 一種基于粒子群算法的網(wǎng)絡(luò)水軍賬號識別方法及系統(tǒng)
- 基于虛假交易和社交關(guān)系矩陣分析的水軍身份確認(rèn)方法
- 識別網(wǎng)絡(luò)水軍團(tuán)體的方法及系統(tǒng)
- 一種基于網(wǎng)絡(luò)點贊檢測網(wǎng)絡(luò)水軍的方法
- 網(wǎng)絡(luò)水軍的識別方法及裝置、存儲介質(zhì)和處理器
- 一種網(wǎng)絡(luò)水軍的檢測方法及裝置
- 汽車主機廠網(wǎng)絡(luò)數(shù)據(jù)的水軍識別方法及裝置





