[發明專利]基于網絡爬蟲的漏洞掃描方法、裝置、設備和存儲介質在審
| 申請號: | 202011396260.7 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112507341A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 劉偉雄;李泳權 | 申請(專利權)人: | 廣州萬方計算機科技有限公司 |
| 主分類號: | G06F21/57 | 分類號: | G06F21/57;G06F16/951;G06F16/955 |
| 代理公司: | 北京澤方譽航專利代理事務所(普通合伙) 11884 | 代理人: | 陳照輝 |
| 地址: | 510000 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 爬蟲 漏洞 掃描 方法 裝置 設備 存儲 介質 | ||
1.一種基于網絡爬蟲的漏洞掃描方法,其特征在于,包括:
根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL;
對所述有效URL進行排序過濾,并更新當前爬蟲深度;
將含有預設關鍵字的有效URL轉換為標準URL;
在預設的爬取集合對所述標準URL進行查重,根據查重的結果對所述爬取集合進行更新;
當所述待爬取列表為空或爬蟲深度超過預設的深度極限值,終止爬蟲掃描。
2.根據權利要求1所述的方法,其特征在于,所述對所述有效URL進行排序過濾,并更新當前爬蟲深度,具體為:
根據寬度優先對所述有效URL進行排序過濾,并更新當前爬蟲深度。
3.根據權利要求1所述的方法,其特征在于,所述在預設的爬取集合對所述標準URL進行查重,根據查重的結果對所述爬取集合進行更新,包括:
在預設的爬取集合基于布隆過濾器對所述標準URL進行查重;
若查重的結果為該標準URL已經存在于所述爬取集合,則丟棄該標準URL,否則將該標準URL添加到所述爬取集合。
4.根據權利要求1所述的方法,其特征在于,所述根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL,包括:
根據預設的待爬取列表依次訪問對應的所述待爬取網頁;
保留響應狀態碼為200的待爬取網頁的URL作為有效URL。
5.一種基于網絡爬蟲的漏洞掃描裝置,其特征在于,包括:
URL獲取單元,用于根據預設的待爬取列表獲取對應的待爬取網頁以及所述待爬取網頁的有效URL;
排序過濾單元,用于對所述有效URL進行排序過濾,并更新當前爬蟲深度;
標準轉換單元,用于將含有預設關鍵字的有效URL轉換為標準URL;
查重更新單元,用于在預設的爬取集合對所述標準URL進行查重,根據查重的結果對所述爬取集合進行更新;
掃描結束單元,用于當所述待爬取列表為空或爬蟲深度超過預設的深度極限值,終止爬蟲掃描。
6.根據權利要求5所述的裝置,其特征在于,所述排序過濾單元,具體用于根據寬度優先對所述有效URL進行排序過濾,并更新當前爬蟲深度。
7.根據權利要求5所述的裝置,其特征在于,所述查重更新單元,包括:
查重過濾模塊,用于在預設的爬取集合基于布隆過濾器對所述標準URL進行查重;
列表更新模塊,用于若查重的結果為該標準URL已經存在于所述爬取集合,則丟棄該標準URL,否則將該標準URL添加到所述爬取集合。
8.根據權利要求5所述的裝置,其特征在于,所述URL獲取單元,包括:
網頁訪問模塊,用于根據預設的待爬取列表依次訪問對應的所述待爬取網頁;
狀態判斷模塊,用于保留響應狀態碼為200的待爬取網頁的URL作為有效URL。
9.一種終端設備,其特征在于,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-4中任一所述的基于網絡爬蟲的漏洞掃描方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-4中任一所述的基于網絡爬蟲的漏洞掃描方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州萬方計算機科技有限公司,未經廣州萬方計算機科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011396260.7/1.html,轉載請聲明來源鉆瓜專利網。





