[發明專利]基于水軍檢測模型構建方法和系統及水軍檢測方法在審
| 申請號: | 201410146467.7 | 申請日: | 2014-04-09 |
| 公開(公告)號: | CN103955714A | 公開(公告)日: | 2014-07-30 |
| 發明(設計)人: | 李倩;牛溫佳;管洋洋;黃超;孫衛強;李丹;胡玥;郭莉 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66;G06F19/00 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 水軍 檢測 模型 構建 方法 系統 | ||
技術領域
本發明涉及水軍檢測方法,尤其涉及一種基于多任務學習的水軍檢測模型構建方法和系統及水軍檢測方法,屬于網絡安全領域。
背景技術
隨著社交網絡的普及,論壇已經成為最熱門的上網應用之一。但網絡論壇的開放性質決定了很難對論壇中的信息進行絕對嚴格的監管,這就導致論壇中出現了一批以獲利為目的,蓄意散播某些言論的網絡水軍。從“7.23”動車事故天價賠償事件到秦火火事件,網絡水軍對網絡環境甚至社會秩序造成很嚴重的影響,可見,對網絡水軍的識別和監管,已經迫在眉睫。
傳統的水軍檢測的機器學習的方法是建立一個統一的模型,采用的單一任務學習的方法,對于每一個任務都采用獨立訓練的模式。這種學習方式存在幾方面的弊端:其一,訓練集合中的樣本只反映單個任務的信息,學習的結果往往受到特定任務的限制。例如,現在新浪微博對于水軍的判斷的標準和論壇的標準是不一樣的,通過新浪微博的規則學習出來的水軍判定模型,應用至其他論壇可能導致將正常用戶誤判為水軍用戶。其二,當訓練集合中的樣本量較少時,導致單一任務學習構造的模型存在一定的信息特征丟失。而傳統方法通過過采樣技術生成的新樣本試圖解決這一問題,但生成的新樣本仍不能保證和原來樣本的特征屬性完全一致。
發明內容
本發明將多任務學習應用與水軍檢測問題中,以單一任務為標準,能夠提取出各個任務學習過程中的共享用戶特征信息,提高水軍檢測的精度。多任務學習和傳統的單任務學習不同,它試圖通過共享不同任務之間的信息構建一個聯合的學習模型。一方面,訓練集合中的樣本均反映了單個任務的信息,訓練集合中的樣本存在一定的差異性,可以根據差異度建立多個學習任務,差異度相似的作為同一個任務,將這些任務同時學習,學習的過程中通過共享不同任務之間的信息,從而達到更好的學習效果;另一方面,對于特定數據樣本較少的情況,通過融合其他相關任務的數據學習,從而對原始數據的信息進行補償學習,避免信息特征丟失的情況。實際應用中也證明了通過使用相關任務的數據確實能夠提高預測的精度。
本發明所要解決的技術問題是針對現有技術的不足,提供一種基于多任務學習的水軍檢測模型構建方法。
本發明解決上述技術問題的技術方案如下:一種水軍檢測模型構建方法,包括如下步驟:
步驟1:對一組給定的向量化的樣本數據先進行任務分割,得到對應的多個任務,對多個任務進行平均特征抽取,得到多個任務的訓練樣本集;
步驟2:對多個任務的訓練樣本集進行多任務特征選擇,得到多個任務的特征權重矩陣;
步驟3:設定一個閾值δ,判斷所述特征權重矩陣中的一個列向量中的最大值是否大于閾值δ,如果是,執行步驟4;否則,放棄所述列向量,執行步驟5;
步驟4:將所述列向量添加到共享特征項集合中;
步驟5:判斷特征權重矩陣中是否存在未與閾值δ進行比較的列向量,如果是,執行步驟3;否則,執行步驟6;
步驟6:輸入新的已知水軍特性的向量化的訓練數據集,將訓練數據集與共享特征項集合進行匹配,將在集合中排列位置匹配的特征項集合在一起,得到新共享特征項集合;
步驟7:對新共享特征項集合通過感知器學習算法(Perceptron?Learning?Algorithm)計算得到特征系數,通過計算共享特征項集合與特征系數的乘積得到標準線性分類值;
步驟8:根據標準線性分類值的大小設置水軍閾值,使被測線性分類值大于水軍閾值時判定其數據來源于水軍,完成水軍判斷模型的構建,結束。
本發明的有益效果是:本發明利用多任務學習的方法建立水軍檢測模型,實現了方便快捷的識別出水軍用戶。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,還包括水軍檢測模型測試過程,所述水軍檢測模型測試過程包括以下步驟:
步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內容特征的原始數據,并對每個維度的原始數據進行量化表示得到特征向量;
步驟10:將特征向量與步驟4中得到的共享特征項集合進行匹配,將位置匹配的特征項集合在一起,構成水軍用戶低維的特征向量;
步驟11:結合水軍用戶低維的特征向量與步驟7中的特征系數計算得到水軍用戶的線性分類值;
步驟12:判斷線性分類值是否大于水軍閾值,如果是,執行下一步,否則,將水軍閾值適當減小并重新設置,返回執行步驟9;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410146467.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于燈檢機的瓶體檢測裝置
- 下一篇:全息底紋鐳射包裝材料印刷品質量檢測系統





