[發明專利]一種黑產場景下惡意云機器人的識別方法及系統有效
| 申請號: | 201910660771.6 | 申請日: | 2019-07-22 |
| 公開(公告)號: | CN110519228B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 石俊崢;劉夢嚴;郭煜 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N20/10 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 陳艷 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 場景 惡意 機器人 識別 方法 系統 | ||
本發明公開了一種黑產場景下惡意云機器人的識別方法及系統,以原始流量為對象進行分析,相比于Web服務器訪問日志,最大程度上減少原始信息的損失,保留潛在的有用信息;同時,其多層流量統計特征提取模塊既保護了用戶隱私,又能提取惡意云機器人區別于正常用戶的隱式特征,高準確率識別惡意云機器人。本發明主要針對薅羊毛、刷票等黑產場景,所述系統可以直接部署在企業的業務服務器端,識別惡意云機器人IP,減少經濟損失;亦可幫助相關機關打擊黑產犯罪。
技術領域
本發明涉及一種黑產場景下惡意云機器人的識別方法及系統,屬于計算機軟件技術領域。
背景技術
網絡機器人檢測是隨著互聯網的迅猛發展而產生的研究領域。通常,傳統的網絡機器人指通過Internet向Web服務器發送請求,以請求資源的自治系統。網絡機器人根據其用途分為良性和惡意兩大類。典型的良性網絡機器人包括搜索引擎索引器和用于從Internet獲取、分析和歸檔信息的爬蟲等。良性網絡機器人使得海量信息的有效提取和利用變得十分便利。而惡意網絡機器人往往通過抓取網站內容,幫助一些不法行為的實施。例如建立釣魚網站、制造虛假下載量、生成垃圾郵件等。此外,在線游戲中的作弊機器人也很猖獗。為了識別這些惡意機器人,減少它們對于正常網絡活動的影響,目前已有方法以Web服務器訪問日志文件為研究對象,有針對性地研究了特定場景下網絡機器人的準確檢測。
已有的網絡機器人檢測方法根據其原理可以分為四類:語法日志分析、流量模式分析、基于學習的技術和圖靈測試系統。語法日志分析依賴于知識庫中的先驗知識如HTTP頭部的user-agent域、IP地址等,通過和Web服務器訪問日志中的內容進行匹配,推斷該條日志是否為機器人產生。該方法嚴重依賴知識庫,而知識庫往往只能涵蓋部分情況,還需要對其進行不斷的更新和維護。另外,HTTP頭部字段內容是可以偽造的。這導致語法日志分析方法雖然原理簡單、易操作,但是準確率和召回率低。流量模式分析方法是對日志進行深度分析,尋找機器人流量不同于正常人類用戶流量的流量模式。和語法日志分析的簡單匹配不同,流量模式分析涉及對請求資源類型、請求量大小、引用位置、時間等不同維度的字段的統計和分析,勾勒出機器人流量所獨有的流量特征和瀏覽模式。然后根據發現的模式,對后續訪問日志進行分類。相比于語法日志分析方法,流量模式分析能更深入、更準確地發現網絡機器人。但其模式的確定需要特征和其表征的現實意義對應起來,這使得一些隱式特征不能被充分挖掘。基于學習的技術很大程度上緩解了這個問題。基于學習的技術在流量模式分析的基礎上,使用機器學習算法,學習機器人流量和正常用戶流量的模式。這種模式是隱式的、更接近本質的。一個成功的模型理論上可以正確識別對應場景下所有的網絡機器人。因此更難被機器人繞開。圖靈測試系統和前三種方法不同,它需要用戶參與圖靈測試,以檢測被測試的用戶是否為機器人。這種方法是實時的,但其需要用戶的交互,這在被動測量中是不能實現的,而且不利于用戶體驗的提升。
固然針對網絡機器人的檢測已形成較為成熟的方法,但已有研究都是針對特定場景的網絡機器人的。隨著移動互聯網、電子商務服務和Web 2.0應用的快速發展,越來越多的交易和服務依賴網絡進行。在這種情況下出現了一種危害極大的惡意網絡機器人。它們使用的極其復雜的策略,利用應用程序的業務邏輯漏洞進行虛假點擊、促銷濫用、虛假賬戶批量注冊以及其他類型的欺詐。由于這些惡意機器人與應用程序交互的方式與正常用戶相同,并且它們會對流量進行篡改,例如使用偽裝的user-agent字段,因此難以檢測。這些惡意機器人已成為黑產中的重要一環,被用于薅羊毛、黃牛刷票等,使企業遭受巨大經濟損失,同時正常用戶的服務體驗也受到嚴重影響。CAPTCHA測試雖然已經被用于識別惡意網絡機器人,但不斷升級的惡意機器人可以繞過多種CAPTCHA測試,而更復雜的CAPTCHA測試會使用戶體驗變差。如何有效、準確地檢測這些惡意機器人的IP已經成為企業對抗黑產的關鍵。而目前還沒有針對黑產場景下惡意機器人識別的有效方法。這類機器人策略復雜,對正常用戶的模仿性極高,傳統的網絡機器人檢測方法顯然很難識別。需要研究一種新的方法,來識別該場景下的惡意網絡機器人。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910660771.6/2.html,轉載請聲明來源鉆瓜專利網。





