[發明專利]一種社交網絡僵尸賬號檢測方法及裝置有效
| 申請號: | 201510278739.3 | 申請日: | 2015-05-27 |
| 公開(公告)號: | CN104901847B | 公開(公告)日: | 2018-10-30 |
| 發明(設計)人: | 劉瑋;王麗宏;張同虎 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L29/06;G06F17/30 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 羅丹 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 社交 網絡 僵尸 賬號 檢測 方法 裝置 | ||
本發明提出了一種社交網絡僵尸賬號檢測方法及裝置,采用層次化啟發式方法進行僵尸賬號檢測,利用賬號資料特征、微博內容特征、發帖時間特征、發帖行為一致性特征,按照計算時間代價逐步判別,一旦判別成功就停止計算,否則就繼續下一層次特征的計算,考慮到大部分僵尸賬號的生成和維護依靠自動化程序進行,成本低,可以通過較低代價的判別方法檢測,所以本發明的所述方法可以大幅提高檢出效率,另一方面,本方法使用了賬號資料、微博內容和行為特征等多維度特征,能夠提高僵尸賬號的檢出率和準確率。
技術領域
本發明涉及互聯網社交技術領域,尤其涉及一種社交網絡僵尸賬號檢測方法及裝置。
背景技術
社交網絡以其內容簡潔、交互便捷和快速傳播等特點,迅速發展成為人們表達觀點、抒發情緒、傳遞信息的重要社會媒體。以新浪微博、Twitter、Facebook為代表的社交網絡在大量社會事件的發酵和爆發過程中都起到了重要的推動作用,所以社交網絡是當前輿情分析必不可少的數據來源之一。社交網絡作為輿情傳播平臺的同時也是網絡營銷的重要手段,其中蘊藏著巨大的經濟價值,于是僵尸賬號應運而生,僵尸賬號是指申請了帳號但是基本不登錄的帳號或者利用使用構造虛假內容的方式達到傳播某一特定內容的目的。前者通過低廉的注冊成本自動注冊大量賬號,用戶可以通過購買的方式短期內增加大量粉絲量,一定程度上擴大自己的影響力。后者通過僵尸賬號發布大量內容重復或含有特定營銷目標的鏈接以達到提高曝光率的目的,增加被點擊概率。隨著社交網絡平臺對僵尸賬號檢測力度的加大,僵尸賬號運營方也使用了多種逃避檢測的方法,以提高僵尸賬號的存活時間。例如通過增加發帖數和登錄次數逃避基于活躍度的檢測,通過摻雜無關文本內容降低營銷關鍵詞頻率逃避基于重復率的檢測等。如何高效、準確地檢測出僵尸賬號對提高社交網絡數據分析具有重要意義。
現有方法多基于關注圖模型或交互圖模型,根據交互性特征對僵尸賬號進行檢測,其檢出率、檢出效率和準確率較低。
發明內容
本發明要解決的技術問題是,提供一種社交網絡僵尸賬號檢測方法及裝置,提高檢測僵尸賬戶的檢出率和準確率。
本發明采用的技術方案是,所述社交網絡僵尸賬號檢測方法,包括:
從僵尸賬號樣本集和正常賬號樣本集中分別提取出層次化特征,基于提取出的所述層次化特征分層次的建立各層分類器;
基于各層分類器對待預測賬號進行檢測,判斷所述待預測賬號是否屬于僵尸賬號。
進一步的,所述層次化特征,包括以下四個層次的特征:
第一層的特征:賬號資料特征;
其余層的特征分別是:微博內容特征、發帖時間特征、發帖行為一致性特征。
進一步的,所述賬號資料特征,包括:
用戶昵稱中字符與數字的長度之和占用用戶昵稱總長度的比例;
是否填寫了家庭住址;
賬號發帖數;
賬號粉絲數;
賬號關注數;
賬號關注數與粉絲數的比例;
所述微博內容特征,包括:
賬號所發微博中含有URL(Uniform Resoure Locator,統一資源定位器)的微博的比例;
賬號所發微博中所含URL去重后的數量與賬號所發微博中所有URL數量的比值;
賬號所發微博中所含內容關鍵詞去重后的數量與賬號所發微博中所有關鍵詞數量的比值;
所述發帖時間特征,包括:
最后一次發帖與第一次發帖的時間跨度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510278739.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種AXI/PCIE總線轉換裝置
- 下一篇:企業網絡安全事件管理系統及其方法





