[發明專利]基于網絡爬蟲的漏洞掃描方法、裝置、設備和存儲介質在審
| 申請號: | 202011396260.7 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112507341A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 劉偉雄;李泳權 | 申請(專利權)人: | 廣州萬方計算機科技有限公司 |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06F16/951;G06F16/955 |
| 代理公司: | 北京澤方譽航專利代理事務所(普通合伙) 11884 | 代理人: | 陳照輝 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 爬蟲 漏洞 掃描 方法 裝置 設備 存儲 介質 | ||
本申請實施例公開了一種基于網絡爬蟲的漏洞掃描方法、裝置、設備和存儲介質。該方法包括:根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL;對所述有效URL進行排序過濾,并更新當前爬蟲深度;將含有預設關鍵字的有效URL轉換為標準URL;在預設的爬取集合對所述標準URL進行查重,根據查重的結果對所述爬取集合進行更新;當所述待爬取列表為空或爬蟲深度超過預設的深度極限值,終止爬蟲掃描。通過寬度優先可以盡可能多地覆蓋網頁,同時通過深度極限值控制爬蟲對一條路徑的爬取過于深入,實現了爬取深度和爬取寬度的較好平衡,在提高爬取速度的同時保證合適的爬取寬度。
技術領域
本申請實施例涉及計算機網絡領域,尤其涉及一種基于網絡爬蟲的漏洞掃描方法、裝置、設備和存儲介質。
背景技術
隨著互聯網信息爆炸式增長,用戶能夠獲得方方面面的信息,極大滿足了用戶的信息需求。但同時伴隨的還有用戶真正需要的目標信息受到大量無關信息的干擾,以及更嚴重的互聯網信息安全風險的增加。網絡技術高超的用戶可能會出于各種私人目的通過互聯網對計算機系統的漏洞進行攻擊。
漏洞是計算機系統的硬件、軟件等在系統設計、實現等方面存在的缺陷。這些缺陷一旦被發現并被惡意利用,攻擊者就可以在未授權的情況下訪問或破壞系統,從而影響計算機系統的正常運行甚至造成安全損害。在Web應用方面,漏洞為攻擊者入侵Web應用提供了便利,攻擊者通過利用這些漏洞入侵Web應用后,將可能會進行非法篡改系統中的數據,破壞Web應用的正常運行等非法操作,給用戶和企業造成嚴重的損失。
為盡快發現計算機系統的漏洞,提前做好應對攻擊的準備,通常需要對計算機系統進行漏洞掃描,發明人在使用現有的漏洞掃描方式時發現,現有的漏洞掃描方式通常需要較長的時間才能完成對系統的整體掃描。
發明內容
本申請實施例提供一種基于網絡爬蟲的漏洞掃描方法、裝置、設備和存儲介質,以解決現有的漏洞掃描方式掃描速度較慢的技術問題。
第一方面,本發明實施例提供了一種基于網絡爬蟲的漏洞掃描方法,包括:
根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL;
對所述有效URL進行排序過濾,并更新當前爬蟲深度;
將含有預設關鍵字的有效URL轉換為標準URL;
在預設的爬取集合對所述標準URL進行查重,根據查重的結果對所述爬取集合進行更新;
當所述待爬取列表為空或爬蟲深度超過預設的深度極限值,終止爬蟲掃描。
進一步的,所述對所述有效URL進行排序過濾,并更新當前爬蟲深度,具體為:
根據寬度優先對所述有效URL進行排序過濾,并更新當前爬蟲深度。
進一步的,所述在預設的爬取集合對所述標準URL進行查重,根據查重的結果對所述爬取集合進行更新,包括:
在預設的爬取集合基于布隆過濾器對所述標準URL進行查重;
若查重的結果為該標準URL已經存在于所述爬取集合,則丟棄該標準URL,否則將該標準URL添加到所述爬取集合。
進一步的,所述根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL,包括:
根據預設的待爬取列表依次訪問對應的所述待爬取網頁;
保留響應狀態碼為200的待爬取網頁的URL作為有效URL。
第二方面,本發明實施例提供了一種基于網絡爬蟲的漏洞掃描裝置,包括:
URL獲取單元,用于根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州萬方計算機科技有限公司,未經廣州萬方計算機科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011396260.7/2.html,轉載請聲明來源鉆瓜專利網。





