日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于代工模式的動態(tài)網(wǎng)頁爬蟲方法及系統(tǒng)有效

專利信息
申請?zhí)枺?/td> 202010488720.2 申請日: 2020-06-02
公開(公告)號: CN111651656B 公開(公告)日: 2023-02-24
發(fā)明(設(shè)計)人: 楊杰;程克非;吳渝;李紅波;葉雯靜;劉鐘書;劉洋旗 申請(專利權(quán))人: 重慶郵電大學(xué)
主分類號: G06F16/951 分類號: G06F16/951;G06F16/955
代理公司: 成都行之專利代理事務(wù)所(普通合伙) 51220 代理人: 張超
地址: 400000 重*** 國省代碼: 重慶;50
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 代工 模式 動態(tài) 網(wǎng)頁 爬蟲 方法 系統(tǒng)
【權(quán)利要求書】:

1.一種基于代工模式的動態(tài)網(wǎng)頁爬蟲方法,其特征在于,包括以下步驟:

S1:接收用戶輸入的業(yè)務(wù)信息,配置爬蟲業(yè)務(wù)參數(shù),進行業(yè)務(wù)評估,并做好準(zhǔn)備工作;

S2:根據(jù)所述業(yè)務(wù)信息,在指定時間分配好系統(tǒng)資源,發(fā)起多個獨立進程的業(yè)務(wù)爬蟲;

S3:所述業(yè)務(wù)爬蟲采用模擬瀏覽器模式,對動態(tài)網(wǎng)頁原始URL進行爬取,并返回目標(biāo)靜態(tài)數(shù)據(jù)內(nèi)容的URL;

S4:審查所述URL的有效性和非重復(fù)性,并對通過審查的爬取任務(wù),構(gòu)造生產(chǎn)任務(wù)消息列表,在分布式服務(wù)器上發(fā)起多個多線程的生產(chǎn)爬蟲;

S5:所述生產(chǎn)爬蟲采用自動化程序模式,對含靜態(tài)內(nèi)容的URL頁面進行爬取,并返回目標(biāo)數(shù)據(jù)字段和附件文件;

S6:對所述目標(biāo)數(shù)據(jù)字段進行預(yù)處理,預(yù)處理后的目標(biāo)數(shù)據(jù)字段和所述附件文件形成業(yè)務(wù)數(shù)據(jù),存儲所述業(yè)務(wù)數(shù)據(jù);

S7:導(dǎo)出所述業(yè)務(wù)數(shù)據(jù),反饋給用戶;

其中,所述業(yè)務(wù)信息包括業(yè)務(wù)ID、業(yè)務(wù)描述、起始URL、登錄資料、執(zhí)行策略、防反爬措施、爬取數(shù)據(jù)字段與定位和導(dǎo)出數(shù)據(jù)格式;

其中,所述登錄資料包括賬號、密碼和CA證書,所述執(zhí)行策略為一次性定時增量爬取,所述防反爬措施包括IP代理、瀏覽器頭和CSS偏移;

其中,所述步驟S1中準(zhǔn)備工作包括:

業(yè)務(wù)參數(shù)完備性檢查:確保所述業(yè)務(wù)信息的完整性;

訪問通行證準(zhǔn)備:根據(jù)所述業(yè)務(wù)信息,登錄目標(biāo)網(wǎng)站,獲取并保存cookies信息,驗證所述CA證書;

小任務(wù)嘗試:根據(jù)所述起始URL和所述訪問通行證準(zhǔn)備,構(gòu)造小型爬取任務(wù),通過執(zhí)行情況,分析所述目標(biāo)網(wǎng)站的字符編碼、數(shù)據(jù)量、訪問時長和爬取成功率;

設(shè)計數(shù)據(jù)字段與規(guī)范化要求:根據(jù)所述業(yè)務(wù)信息,設(shè)計目標(biāo)數(shù)據(jù)的字段名稱、字段格式、字段長度和規(guī)范化要求;

建立數(shù)據(jù)庫、數(shù)據(jù)表和附件存儲空間;

其中,所述步驟S1中業(yè)務(wù)評估包括對業(yè)務(wù)所需的服務(wù)器硬件、軟件、存儲和網(wǎng)絡(luò)帶寬的評估。

2.根據(jù)權(quán)利要求1所述的基于代工模式的動態(tài)網(wǎng)頁爬蟲方法,其特征在于,若數(shù)據(jù)量巨大、生產(chǎn)爬蟲并行程度高,則采用分庫分表的方式進行存儲。

3.根據(jù)權(quán)利要求1所述基于代工模式的動態(tài)網(wǎng)頁爬蟲方法,其特征在于,所述步驟S3中,所述模擬瀏覽器模式包括模擬瀏覽器鼠標(biāo)點擊、滾動條滑動、鍵盤輸入和復(fù)制粘貼。

4.根據(jù)權(quán)利要求1所述基于代工模式的動態(tài)網(wǎng)頁爬蟲方法,其特征在于,所述步驟S4包括以下子步驟:

S01:通過合法性規(guī)則審查URL的有效性;

S02:通過Hash算法將URL映射到HashMap的Key上,采用布隆過濾器審查URL是否重復(fù);若重復(fù),則丟棄,并進行日志記錄。

5.根據(jù)權(quán)利要求1所述基于代工模式的動態(tài)網(wǎng)頁爬蟲方法,其特征在于,所述步驟S6中,對所述目標(biāo)數(shù)據(jù)字段進行預(yù)處理,詳細內(nèi)容如下:

數(shù)據(jù)完整性檢查:指定要爬取的字段是否完整,數(shù)據(jù)內(nèi)容是否達到要求;對不能達到要求的數(shù)據(jù)可根據(jù)嚴(yán)重程度進行糾正、標(biāo)注或丟棄;

字段規(guī)范化處理:字段的數(shù)據(jù)格式、數(shù)據(jù)類型是否符合設(shè)定;對不能達到要求的數(shù)據(jù)進行單獨轉(zhuǎn)換;

附件文件轉(zhuǎn)存:將爬取的附件文件進行病毒掃描后,重新分配含時間戳的不易重復(fù)的文件名,再轉(zhuǎn)存到固定的位置存儲,并新增一個數(shù)據(jù)字段用于記錄附件文件的路徑和文件名。

6.一種基于代工模式的動態(tài)網(wǎng)頁爬蟲系統(tǒng),其特征在于,包括:

業(yè)務(wù)接口模塊:作為與業(yè)務(wù)相關(guān)的用戶接口,接收用戶輸入的業(yè)務(wù)信息,配置爬蟲業(yè)務(wù)相關(guān)參數(shù),進行業(yè)務(wù)評估,并做好準(zhǔn)備工作;所述業(yè)務(wù)信息包括:業(yè)務(wù)ID、業(yè)務(wù)描述、起始URL、登錄資料、執(zhí)行策略、防反爬措施、爬取數(shù)據(jù)字段與定位和最終導(dǎo)出數(shù)據(jù)格式;所述準(zhǔn)備工作包括業(yè)務(wù)參數(shù)完備性檢查、訪問通行證準(zhǔn)備、小任務(wù)嘗試、設(shè)計數(shù)據(jù)字段與規(guī)范化要求、建立數(shù)據(jù)庫、建立數(shù)據(jù)表和建立附件存儲空間;所述業(yè)務(wù)評估包括對業(yè)務(wù)所需的服務(wù)器硬件、軟件、存儲和網(wǎng)絡(luò)帶寬的評估;

業(yè)務(wù)調(diào)度模塊:根據(jù)業(yè)務(wù)相關(guān)信息,在指定時間分配好系統(tǒng)資源,發(fā)起多個獨立進程的業(yè)務(wù)爬蟲;

業(yè)務(wù)爬蟲:采用模擬瀏覽器模式,對動態(tài)網(wǎng)頁原始URL進行爬取,并返回目標(biāo)靜態(tài)數(shù)據(jù)內(nèi)容的URL;

生產(chǎn)調(diào)度模塊:接收由業(yè)務(wù)爬蟲返回的爬取任務(wù),審查URL的有效性和非重復(fù)性,并對通過審核的爬取任務(wù)構(gòu)造生產(chǎn)任務(wù)消息列表,在分布式集群服務(wù)器上發(fā)起多個多線程的生產(chǎn)爬蟲;

生產(chǎn)爬蟲:采用自動化程序模式,對含靜態(tài)內(nèi)容的URL頁面進行爬取,并返回目標(biāo)數(shù)據(jù)和附件文件;

存儲模塊:接收生產(chǎn)爬蟲返回的目標(biāo)數(shù)據(jù)和附件文件,對所述目標(biāo)數(shù)據(jù)進行完整性、規(guī)范化處理,交將處理后的目標(biāo)數(shù)據(jù)和附件文件存入數(shù)據(jù)庫中,形成業(yè)務(wù)數(shù)據(jù);

導(dǎo)出模塊:根據(jù)所述最終導(dǎo)出數(shù)據(jù)格式導(dǎo)出業(yè)務(wù)數(shù)據(jù),反饋給用戶;

其中,所述業(yè)務(wù)參數(shù)完備性檢查,是指:確保所述業(yè)務(wù)信息的完整性;

所述訪問通行證準(zhǔn)備,是指:根據(jù)所述業(yè)務(wù)信息,登錄目標(biāo)網(wǎng)站,獲取并保存cookies信息,驗證CA證書;

所述小任務(wù)嘗試,是指:根據(jù)所述起始URL和所述訪問通行證準(zhǔn)備,構(gòu)造小型爬取任務(wù),通過執(zhí)行情況,分析所述目標(biāo)網(wǎng)站的字符編碼、數(shù)據(jù)量、訪問時長和爬取成功率;

所述設(shè)計數(shù)據(jù)字段與規(guī)范化要求,是指:根據(jù)所述業(yè)務(wù)信息,設(shè)計目標(biāo)數(shù)據(jù)的字段名稱、字段格式、字段長度和規(guī)范化要求。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010488720.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久久精品中文| 国产一级自拍| 亚洲欧美v国产一区二区| 午夜剧场a级免费| 亚洲福利视频一区二区| 日韩精品一区二区免费| 国产区精品| 日韩av在线播放网址| 日韩无遮挡免费视频| 91精品www| 国产一区二区a| 午夜激情在线| 精品国产一区二区三区国产馆杂枝| 欧洲激情一区二区| 国产精品亚发布| 色综合欧美亚洲国产| 久久婷婷国产麻豆91天堂徐州| 大bbw大bbw巨大bbw看看| 亚洲精品456在线播放| 亚洲高清国产精品| 国产经典一区二区| 久久99久久99精品蜜柚传媒| 国产色婷婷精品综合在线播放| 久久99久久99精品免观看软件| 久久精品二| 欧美日韩中文字幕三区| 999国产精品999久久久久久| 国产一级片一区| 日韩精品中文字幕一区二区三区| 久久久久久久久久国产精品| 欧美极品少妇videossex| 国产偷窥片| 日本午夜久久| 亚洲天堂国产精品| 亚洲v欧美v另类v综合v日韩v| 91人人精品| 久久五月精品| 国产精品一二三四五区| 99久久www免费| 午夜码电影| 福利片91| 国产精品香蕉在线的人| 久久国产精彩视频| 国产一区二区三区在线电影| 亚洲欧美日韩在线看| 国产激情视频一区二区| 国产真裸无庶纶乱视频 | 日韩区欧美久久久无人区| 97精品国产aⅴ7777| 国产资源一区二区| 午夜爽爽视频| 人人澡超碰碰97碰碰碰| 国内精品99| 日本一区二区三区免费播放| 国产日产精品一区二区三区| 精品久久久久99| 国产精品久久久久久久久久久杏吧| 国产日韩精品久久| 午夜爽爽视频| 狠狠色狠狠色合久久伊人| 午夜精品999| 伊人精品一区二区三区| 国产精品二十区| 欧美国产精品久久| 国产一区二区播放| 欧美一级不卡| 亚洲国产aⅴ精品一区二区16| 另类视频一区二区| 高清在线一区二区| 亚洲精品日韩在线| 国产欧美一二三区| 亚洲影院久久| 久久精品亚洲一区二区三区画质| 亚洲久色影视| 国产精品久久久区三区天天噜| 日韩中文字幕在线一区二区| 国产欧美一区二区精品久久| 国产精品欧美久久久久一区二区 | 国内少妇自拍视频一区| 日韩精品一区二区三区四区在线观看| 狠狠色狠狠综合久久| 日韩精品在线一区二区三区| 亚洲欧美一二三| 国产乱子一区二区| 香蕉av一区二区三区| 色偷偷一区二区三区| 粉嫩久久久久久久极品| 亚洲少妇一区二区| 午夜影院h| 国产足控福利视频一区| 91精品一区| 国产精品日韩精品欧美精品| 日本高清一二三区| 日韩精品久久久久久久的张开腿让| 欧美性二区| 国产91九色视频| 欧美日韩国产影院| 狠狠色综合久久丁香婷婷| 色一情一乱一乱一区99av白浆| 亚洲欧美日韩在线看| 国产精品久久久久久亚洲调教| 国产日韩欧美亚洲综合| 欧美一区二区三区激情| 国产91在| 99精品欧美一区二区三区美图| 久久99久久99精品免观看软件| 国产一二区在线| 久久综合二区| 91精品一区二区中文字幕| 国产91综合一区在线观看| 国产精品一二二区| 国产精品你懂的在线| 国产日韩欧美不卡| 欧美一区二区综合| 亚洲精品人| 日韩精品一区在线视频| 午夜剧场a级免费| 久久久精品视频在线| 亚洲神马久久| 在线精品视频一区| 久久国产视屏| 国内久久久| 国产美女三级无套内谢| 国产精品一区二区在线看| 91波多野结衣| 激情久久综合| 国产97免费视频| 欧美一区免费| 日本午夜一区二区| av毛片精品| 国产欧美日韩一区二区三区四区| 精品国产乱码久久久久久久| 国产一区二区极品| 99久国产| 日本午夜久久| 亚洲精品97久久久babes| 69久久夜色精品国产69–| 亚洲欧洲日韩在线| 93久久精品日日躁夜夜躁欧美| 国产精品乱码一区| 欧美系列一区| 国产极品一区二区三区| 亚洲国产精品精品| 国产1区2区3区| 国产丝袜一区二区三区免费视频 | 亚洲国产一区二区精华液| 国产精品一区二区久久乐夜夜嗨| 国产超碰人人模人人爽人人添| 免费的午夜毛片| 亚洲欧美v国产一区二区| 超碰97国产精品人人cao| 国产99小视频| 久久97国产| 中文乱幕日产无线码1区| 91精品视频在线观看免费| 亚洲视频精品一区| 国产呻吟久久久久久久92 | 亚洲欧美国产中文字幕| 午夜激情电影院| 亚洲精品456| 欧美hdfree性xxxx| 亚洲精品91久久久久久| 92久久精品| 欧美日本一二三区| 国产精品色婷婷99久久精品| 亚洲天堂国产精品| 日韩精品中文字幕在线| 亚洲高清国产精品| 国产女人与拘做受免费视频| 亚洲制服丝袜中文字幕| 91精品啪在线观看国产| 国产女性无套免费看网站| 欧美一区免费| 午夜精品一区二区三区aa毛片| 亚洲精品无吗| 久久97国产| 亚洲欧美国产一区二区三区| 国产69精品久久久久app下载| 国产精品99一区二区三区| 国产一区二区在| 久久99精品一区二区三区| 日本福利一区二区| 欧美激情片一区二区| 国产伦理精品一区二区三区观看体验 | 99久久国产综合| 中文字幕久久精品一区| 中文字幕二区在线观看| 免费xxxx18美国| 国产在线一卡二卡| 日本高清h色视频在线观看| 久久九九国产精品| 一级午夜影院| 国产精品欧美久久久久一区二区| 欧美三区二区一区| 亚洲欧美色图在线| 久久免费视频一区| 国产特级淫片免费看| 国产一区网址| 欧美亚洲视频二区| 日韩av在线影院| 夜夜嗨av一区二区三区中文字幕| 亚洲欧洲一区二区| 午夜影院h| 影音先锋久久久| 在线视频不卡一区| 99久久精品国产系列| 国产的欧美一区二区三区 | 国产九九九精品视频| 国产91清纯白嫩初高中在线观看 | 欧美日韩中文字幕三区| 欧美一区二区综合| 国产一区二区三区乱码| 国产一级一区二区| 午夜电影一区二区三区| 日本丰满岳妇伦3在线观看| 国产伦精品一区二区三区四区| 一区二区在线视频免费观看| 天天射欧美| 四虎国产精品久久| 一区二区三区精品国产| 久久99国产视频| 亚洲乱视频| 精品视频在线一区二区三区| 欧美激情视频一区二区三区免费| 日韩精品一二区| 免费91麻豆精品国产自产在线观看| 国产午夜亚洲精品羞羞网站| 欧美精品日韩精品| 97人人揉人人捏人人添| 狠狠躁日日躁狂躁夜夜躁| 亚洲国产精品一区在线| 26uuu亚洲电影在线观看| 亚洲w码欧洲s码免费| 亚洲欧洲一区| 欧美乱大交xxxxx| 99久久夜色精品| 欧美一区二区三区久久| 国产精品视频1区2区3区| 日韩av电影手机在线观看| 亚洲精品少妇一区二区| 性刺激久久久久久久久九色| 欧美中文字幕一区二区| 日本xxxxxxxxx68护士| 久久91久久久久麻豆精品| 国产69精品久久久久9999不卡免费| 91免费国产视频|