[發(fā)明專利]一種分布式網(wǎng)絡(luò)爬蟲的URL去重方法及其系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811392810.0 | 申請日: | 2018-11-21 |
| 公開(公告)號: | CN109657118A | 公開(公告)日: | 2019-04-19 |
| 發(fā)明(設(shè)計)人: | 胡翔 | 申請(專利權(quán))人: | 安徽云融信息技術(shù)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;H04L9/06 |
| 代理公司: | 上海精晟知識產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區(qū)*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 去重 抓取 分布式網(wǎng)絡(luò) 爬蟲 遍歷 數(shù)據(jù)傳輸領(lǐng)域 符號查找 密文生成 網(wǎng)絡(luò)爬蟲 壓縮處理 資源空間 廣義表 資源庫 磁盤 解密 密文 數(shù)組 切割 占有率 網(wǎng)頁 轉(zhuǎn)換 改進(jìn) | ||
1.一種分布式網(wǎng)絡(luò)爬蟲的URL去重方法,其特征在于,包括如下步驟:
步驟S01:獲取待抓取網(wǎng)頁的URL;
步驟S02:將獲取的URL進(jìn)行16位MD5壓縮處理;
步驟S03:將生成的密文切割成16位數(shù)組;
步驟S04:根據(jù)磁盤符號查找方式將密文生成數(shù)組的轉(zhuǎn)換為相應(yīng)路徑;
步驟S05:判斷l(xiāng)inkurl中是否存在相應(yīng)的URL;
若不存在,則URL存儲至資源庫;
若存在,則刪除該URL;
步驟S06:對資源庫中的URL進(jìn)行解密并動態(tài)插入改進(jìn)廣義表;
步驟S07:從動態(tài)廣義表根節(jié)點出發(fā),遍歷待去重的URL每個字母;
步驟S08:依次判斷每個字母對應(yīng)的節(jié)點是否存在;
若存在,則將該條URL去重;
若不存在,則將該條URL存儲至待抓取隊列。
2.根據(jù)權(quán)利要求1所述的一種分布式網(wǎng)絡(luò)爬蟲的URL去重方法,其特征在于,所述步驟S02中,對URL加密完成后以樹的形式進(jìn)行存儲。
3.根據(jù)權(quán)利要求1所述的一種分布式網(wǎng)絡(luò)爬蟲的URL去重方法,其特征在于,所述步驟S03中,密文切割成16位的數(shù)組a后,將數(shù)據(jù)a[0]的值與根節(jié)點下指向的節(jié)點值進(jìn)行比較;若存在,則將找到的節(jié)點r[1]指向的下一個節(jié)點與a[1]相比較,依次比較直至a[15]比較結(jié)束。
4.根據(jù)權(quán)利要求1所述的一種分布式網(wǎng)絡(luò)爬蟲的URL去重方法,其特征在于,所述步驟S07中,廣義表中每個節(jié)點存儲一個字母,遍歷URL每個字母時,若某一字母對應(yīng)的廣義表節(jié)點不存在,則需先創(chuàng)建該節(jié)點對應(yīng)層上的root節(jié)點和該字母的對應(yīng)節(jié)點后,返回繼續(xù)遍歷。
5.如權(quán)利要求1-4任意一所述的一種分布式網(wǎng)絡(luò)爬蟲的URL去重系統(tǒng),包括處理器和存儲器,其特征在于:
所述處理器依次與搜索模塊、加密模塊、轉(zhuǎn)換模塊、解密模塊、插入模塊、去重模塊以及存儲器電性連接;
所述搜索模塊,用于依次讀取一條待處理網(wǎng)頁的地址并傳遞至加密模塊;
所述加密模塊,用于對獲取的URL并對URL進(jìn)行MD5壓縮加密處理;
所述轉(zhuǎn)換模塊,用以根據(jù)磁盤符號將加密后生成的密文數(shù)組轉(zhuǎn)換成相應(yīng)路徑;
所述解密模塊,用于對初步去重的URL進(jìn)行解密處理;
所述插入模塊,用于將解密完成的URL插入廣義表中;
所述去重模塊,用于根據(jù)廣義表根節(jié)點遍歷URL每個字母進(jìn)行二次去重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽云融信息技術(shù)有限公司,未經(jīng)安徽云融信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811392810.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種葉輪動平衡校正的精確去重方法
- 一種基于文件語義和系統(tǒng)實時狀態(tài)的冗余數(shù)據(jù)去重方法
- 屏蔽電機上座及其屏蔽泵
- 一種文本去重方法和裝置
- 一種數(shù)據(jù)計數(shù)去重方法、系統(tǒng)、服務(wù)器及存儲介質(zhì)
- 一種去重流量提示方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于解析去重邏輯的去重平臺測試方法、裝置及計算機設(shè)備
- 一種海量互聯(lián)網(wǎng)新聞清洗系統(tǒng)
- 文本數(shù)據(jù)的去重方法、設(shè)備及存儲介質(zhì)
- 文本去重方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)
- 網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)管理裝置、通信裝置以及路徑設(shè)置方法
- 一種分布式網(wǎng)絡(luò)系統(tǒng)的軟件升級方法及設(shè)備
- 一種分布式能源網(wǎng)絡(luò)的調(diào)節(jié)方法及裝置
- 一種分布式網(wǎng)絡(luò)安全控制系統(tǒng)和方法
- 一種分布式網(wǎng)絡(luò)行為管理器及網(wǎng)絡(luò)接入控制方法
- 一種分布式電源集群控制節(jié)點優(yōu)化部署方法及裝置
- 一種自適應(yīng)RDMA網(wǎng)絡(luò)的分布式機器學(xué)習(xí)系統(tǒng)及方法
- 一種網(wǎng)絡(luò)型分布式光纖多狀態(tài)感知系統(tǒng)
- 一種分布式系統(tǒng)的優(yōu)化方法及系統(tǒng)
- 一種網(wǎng)絡(luò)安全監(jiān)測器及分布式網(wǎng)絡(luò)安全智能分析方法
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





