[發明專利]一種基于改進DBN模型的水軍檢測方法及系統有效
| 申請號: | 201310681479.5 | 申請日: | 2013-12-12 |
| 公開(公告)號: | CN103729678A | 公開(公告)日: | 2014-04-16 |
| 發明(設計)人: | 管洋洋;牛溫佳;李倩;黃超;孫衛強;胡玥;劉萍;郭麗 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06N3/02 | 分類號: | G06N3/02;G06K9/66 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 dbn 模型 水軍 檢測 方法 系統 | ||
技術領域
本發明涉及一種基于改進DBN模型的水軍檢測方法及系統。
背景技術
隨著社交網絡的普及,論壇已經成為最熱門的上網應用之一。但網絡論壇的開放性質決定了很難對論壇中的信息進行絕對嚴格的監管,這就導致論壇中出現了一批以獲利為目的,蓄意散播某些言論的網絡水軍。從“7.23”動車事故天價賠償事件到秦火火事件,網絡水軍對網絡環境甚至社會秩序造成很嚴重的影響,可見,對網絡水軍的識別和監管,已經迫在眉睫。
對網絡水軍的監管可以通過兩種方式:一種是針對每個帖子進行判斷,對水軍貼進行刪帖處理;另一種是針對每個用戶進行判斷,對水軍用戶封號刪帖,甚至追究其法律責任。前一種方式需要對水軍貼的特征有客觀的、統一的描述,然而中國數億網民的發帖習慣各不相同,很難找到統一的標準來鑒別水軍貼,因此這種方式只用于屏蔽敏感詞匯,而對通用水軍識別場景不適用。現有的水軍識別多采用第二種方式,即通過用戶行為判斷論壇用戶是否水軍。
對于論壇中的“老虎水軍”,比如“秦火火”、“立二拆四”等,他們活躍在一些用戶眾多,影響范圍較廣的論壇上,并擁有大量的粉絲及好友,他們通過捏造事實、蓄意炒作,達到宣傳或攻擊的目的,進而獲取非法利益。這些“老虎水軍”活躍在公眾視線范圍內,經常處于事件的風口浪尖上,因此可以較容易地對他們進行發現和處理。另外一類“蒼蠅水軍”受雇于網絡推手組織,在論壇中發表特定主題的帖子。“蒼蠅水軍”數量眾多,占到水軍群體的80%以上,每一個“蒼蠅水軍”的活動很有限,不易被發現,但是“蒼蠅水軍”整體的力量不容忽視,他們以積少成多的方式影響了網絡輿論的方向,是網絡事件背后的強大隱形力量。因此對“蒼蠅水軍”的識別是水軍識別的重點,現在的多數水軍識別算法也是針對“蒼蠅水軍”。一種普遍的識別方式是對用戶行為進行橫向比較,從而發現“蒼蠅水軍”的行為規律,制定識別方案。現有的“蒼蠅水軍”發現一般采用決策樹、貝葉斯網絡、KNN、神經網絡等算法,在前幾種算法設計過程中,需要依據歷史經驗設定關鍵參數的值,用于體現用戶行為的每個方面對判定結果影響程度的不同,這種方式帶有很大的主觀性,嚴重影響了算法的判定準確率;神經網絡算法在進行“蒼蠅水軍”識別時,通過訓練的方式確定模型參數,可以客觀地反映用戶行為的不同方面對最終結果的影響程度,但是訓練過程耗時太長,且極易因為網絡初始權值設置不當而陷入局部最優解。
發明內容
本發明所要解決的技術問題是,針對現有技術的不足,提供一種可以保證較高的判定準確率,又具有較短的訓練時間,且不易陷入局部最優解基于改進DBN模型的水軍檢測方法。
本發明解決上述技術問題的技術方案如下:一種基于改進DBN模型的水軍檢測方法,具體包括以下步驟:
步驟1:采用已分類數據集對原始DBN深度信念網絡模型進行訓練和檢測,構成改進DBN深度信念網絡模型;
步驟2:將待分類數據集中的數據輸入改進DBN深度信念網絡模型進行分類,完成對水軍用戶的識別。
本發明的有益效果是:本發明結合DBN(Deep?Belief?Network,深度信念網絡)和PSO(Particle?Swarm?Optimization,粒子群算法)對“蒼蠅水軍”進行識別。專利首先建立用戶歷史行為向量表征用戶歷史行為,然后構造DBN模型,用已分類數據集對模型進行訓練,最后用得到的模型對待分類用戶數據進行分類,即實現了“蒼蠅水軍”的識別。該方法是對BP神經網絡算法的改進,既可以保證較高的判定準確率,又具有較短的訓練時間,且不易陷入局部最優解。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述步驟1具體包括以下步驟:
步驟1.1:將已分類數據集分為兩組,一組數據為訓練數據集,用于訓練原始DBN深度信念網絡模型;另一組為測試數據集,用于測試原始DBN深度信念網絡模型;
步驟1.2:訓練數據集對原始DBN深度信念網絡模型進行迭代訓練;
步驟1.3:測試數據集對訓練后的改進DBN深度信念網絡模型進行測試,判斷是否達到預設的判定準確率,如果是,進行步驟2;否則,跳轉至步驟1.2。
進一步,所述步驟1.1具體包括以下步驟:
步驟1.1.1:接收已分類數據集,所述已分類數據集中包含多個用戶歷史行為向量;
步驟1.1.2:將所有用戶歷史行為向量進行歸一化處理;
步驟1.1.3:建立訓練數據集和測試數據集;將歸一化處理后的用戶歷史行為向量一部分添加到訓練數據集,剩余部分添加到測試數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310681479.5/2.html,轉載請聲明來源鉆瓜專利網。





