[發明專利]一種爬取數據的方法、系統及設備在審
| 申請號: | 202010172697.6 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN113392297A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 李想;胡金涌 | 申請(專利權)人: | 上海云盾信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 王奎宇;甘章乖 |
| 地址: | 201100 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 方法 系統 設備 | ||
1.一種爬取數據的方法,其中,所述方法包括:
根據目標任務獲取訪問流量以及訪問日志,對所述訪問流量以及所述訪問日志進行解析以確定所有的統一資源定位符;
從所有的統一資源定位符中篩選出目標訪問鏈接;
將篩選后的統一資源定位符加入與所述目標任務相關的配置項,整合成與主動抓取數據格式相同的源數據;
將所述源數據加入主動抓取消息隊列進行任務消費以確定目標訪問鏈接。
2.根據權利要求1所述的方法,其中,所述根據目標任務獲取訪問流量以及訪問日志,包括:
對訪問目標任務的訪問入口的主交換機進行端口鏡像以獲取訪問流量,獲取目標任務對應的訪問日志。
3.根據權利要求1所述的方法,其中,所述對所述訪問流量以及所述訪問日志進行解析以確定所有的統一資源定位符,包括:
對所述訪問流量進行重組分析以確定訪問請求數據,根據所述訪問請求數據確定所述訪問流量對應的統一資源定位符;
對所述訪問日志根據預設的日志解析規則進行解析,得到所述訪問日志對應的統一資源定位符。
4.根據權利要求1所述的方法,其中,所述與所述目標任務相關的配置項包括:抓取深度、抓取數量、源網際互連協議、抓取限制。
5.根據權利要求3所述的方法,其中,所述對所述訪問流量進行重組分析以確定訪問請求數據,包括:
按照傳輸控制協議流重組所述訪問流量以確定重組數據;
對所述重組數據進行超文本傳輸協議解析以確定訪問請求數據,其中,所述訪問請求數據包括訪問方式、訪問地址、訪問域名以及訪問請求參數。
6.根據權利要求1所述的方法,其中,所述從所有的統一資源定位符中篩選出目標訪問鏈接,包括:
對所有的統一資源定位符進行篩選處理以確定目標訪問鏈接,其中,所述篩選處理包括去重處理、去靜態資源處理、去相似統一資源定位符處理、去敏感域名處理中任一種或任幾種組合。
7.根據權利要求1所述的方法,其中,所述方法包括:
根據所述目標任務相關的配置項執行抓取所述目標任務的生產消費循環。
8.根據權利要求1所述的方法,其中,所述將所述源數據加入主動抓取消息隊列進行任務消費以確定目標訪問鏈接,包括:
將所述與主動抓取數據格式相同的源數據按照定量流數據的方式加入至所述主動抓取消息隊列中,確定新的消息隊列;
根據所述目標任務相關的配置項主動處理抓取所述新的消息隊列中的源數據以確定目標訪問鏈接。
9.一種爬取數據的系統,其中,所述系統包括:被動抓取模塊、爬蟲鑒別模塊、數據整合模塊以及主動抓取模塊,其中,
所述被動抓取模塊用于根據目標任務獲取訪問流量以及訪問日志,對所述訪問流量以及所述訪問日志進行解析以確定所有的統一資源定位符;
所述爬蟲鑒別模塊用于從所有的統一資源定位符中篩選出目標訪問鏈接;
所述數據整合模塊用于將篩選后的統一資源定位符加入與所述目標任務相關的配置項,整合成與主動抓取數據格式相同的源數據;
所述主動抓取模塊用于將所述源數據加入主動抓取消息隊列進行任務消費以確定目標訪問鏈接。
10.一種計算機可讀介質,其上存儲有計算機可讀指令,所述計算機可讀指令可被處理器執行以實現如權利要求1至8中任一項所述的方法。
11.一種爬取數據的設備,其中,所述設備包括:
一個或多個處理器;以及
存儲有計算機可讀指令的存儲器,所述計算機可讀指令在被執行時使所述處理器執行如權利要求1至8中任一項所述方法的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云盾信息技術有限公司,未經上海云盾信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010172697.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





