日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]自演進的網絡自適應爬蟲方法及系統有效

專利信息
申請號: 201710798931.4 申請日: 2017-09-07
公開(公告)號: CN107580052B 公開(公告)日: 2020-04-10
發明(設計)人: 何有樹;莫默;唐東;周維軍 申請(專利權)人: 翼果(深圳)科技有限公司
主分類號: H04L29/08 分類號: H04L29/08;H04L29/12;G06F16/951;G06N5/02
代理公司: 暫無信息 代理人: 暫無信息
地址: 518000 廣東省深圳市*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 演進 網絡 自適應 爬蟲 方法 系統
【說明書】:

技術領域

發明涉及互聯網技術領域,尤其涉及一種自演進的網絡自適應爬蟲方法及系統。

背景技術

互聯網的信息每天海量增長,大量的信息中潛在著巨大的商業價值,網絡爬蟲為采集互聯網中的海量信息而存在。由于互聯網的信息過于巨大,這對網絡爬蟲的采集能力、經濟性都是巨大的考驗;同時,網絡信息瞬息萬變,及時采集這些信息也顯得非常重要。

目前,網站為提供大流量處理能力的同時提供系統的可靠性,一般同時存在多個IP地址提供同等Web服務。現有的爬蟲主要包括2種采集方法,一種通過DNS(Domain Name System,域名系統)查詢IP再訪問,由于DNS Cache(緩存服務)原因,導致每次查到的IP是同樣的,使爬蟲不能充分利用多個服務端;另一種預先保存域名與IP地址對應關系,通過替換URL中的域名為IP地址的方法實現負荷分擔,這使爬蟲對很多網站不能訪問,因為很多目標網站限制只能使用域名訪問,例如新浪微博等。

此外,互聯網中不同的目標網站對采集系統有不同的限制策略,這使得網絡爬蟲不得不為各種目標網站增加各種配置項,開發人員不得不花費很多時間調試目標網站的參數,才能使爬蟲系統正常工作,但是很多因素需要運行一段時間才會觸發,因此每過一段時間需要檢查其工作狀態是否正常,分析大量日志,修改爬蟲配置參數,再使其正常工作,整個過程中需要持續消耗研發人力。

發明內容

本發明實施例所要解決的技術問題在于,提供一種自演進的網絡自適應爬蟲方法及系統,以使提高爬蟲的采集能力同時能夠使爬蟲自動適應目標網站的配置項。

為了解決上述技術問題,本發明實施例提出了一種自演進的網絡自適應爬蟲方法,包括:

步驟1:接收采集任務以及目標網站的IP地址或域名,當接收的為IP地址時直接進入步驟4,當接收的為域名時則根據域名查詢對應的域名IP列表是否存在于自建的DNS系統的記錄中,記錄若存在,則查詢記錄是否超時,若未超時,則進入步驟4;若記錄不存在或記錄超時,則進入步驟2;

步驟2:查詢目標網站的域名對外提供服務的所有IP地址;

步驟3:探測查詢到的IP地址是否有效,將有效的IP地址生成與目標網站對應的域名IP列表,并更新至自建的DNS系統;

步驟4:探測并保存與目標網站對應的IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,并基于域名IP列表結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;

步驟5:根據機器學習的規則知識庫預測對應的采集模型,并根據采集模型設置爬蟲的參數值,采集目標網站的數據。

相應地,本發明實施例還提供了一種自演進的網絡自適應爬蟲系統,包括:

采集模塊:接收采集任務以及目標網站的IP地址或域名,當接收的為IP地址時,探測IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,并結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;當接收的為域名時則根據域名查詢對應的域名IP列表是否存在于自建的DNS系統的記錄中,記錄若存在,則查詢記錄是否超時,若未超時,則探測對應的域名IP列表內IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,并基于域名IP列表結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;若記錄不存在或記錄超時,則查詢目標網站的域名對外提供服務的所有IP地址,并探測查詢到的IP地址是否有效,將有效的IP地址生成與目標網站對應的域名IP列表,并更新至自建的DNS系統,再探測對應的域名IP列表內各IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,基于域名IP列表并結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;根據機器學習的規則知識庫預測對應的采集模型,并根據采集模型設置爬蟲的參數值,采集目標網站的數據。

本發明實施例通過提出一種自演進的網絡自適應爬蟲方法及系統,所述爬蟲方法包括步驟1~步驟5,通過獲取自建的DNS系統中目標網站對外提供服務的所有IP地址列表并結合網絡能力探測結果來生成負荷分擔任務,以及通過機器學習的規則知識庫預測最高成功率的采集模型,解決了爬蟲采集能力差及需經常修改爬蟲配置參數的問題,進而達到了提高爬蟲的采集能力同時能夠使爬蟲自動適應目標網站的配置項的技術效果。

附圖說明

圖1是本發明實施例的自演進的網絡自適應爬蟲方法的流程示意圖。

圖2是本發明一種實施例的域名對應的IP地址的示意圖。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于翼果(深圳)科技有限公司,未經翼果(深圳)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710798931.4/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩欧美国产中文字幕| 欧洲在线一区| 狠狠色依依成人婷婷九月| 91麻豆产精品久久久| 97欧美精品| 国产免费一区二区三区四区五区| 97人人模人人爽视频一区二区 | 国产日韩精品一区二区三区| 国产91高清| 亚洲一二区在线观看| 国产一级精品在线观看| 国产69精品久久99的直播节目| 日韩精品久久久久久中文字幕8| 在线观看欧美一区二区三区| 日韩精品一区在线视频| 午夜免费一级片| 97精品久久久午夜一区二区三区| 91麻豆精品国产91久久久无限制版| 国产一区在线精品| 亚洲精品www久久久久久广东| 日本精品在线一区| 亚洲**毛茸茸| 97国产精品久久久| 国产精品免费自拍| 日本一二三区视频在线| 又色又爽又大免费区欧美| 天天射欧美| 中文乱码在线视频| 99精品免费在线视频| 亚洲国产欧美一区| 久久久久国产亚洲| 午夜影院一区二区| 国产精品日韩视频| 久久国产精品精品国产| 97精品久久人人爽人人爽| 亚洲日韩欧美综合| 国语对白老女人一级hd| 午夜电影网一区| 美国三级日本三级久久99| 亚洲无人区码一码二码三码| 欧洲国产一区| 国语精品一区 | 久久99国产综合精品| 国产人成看黄久久久久久久久| 亚洲高清毛片一区二区| 欧美乱妇高清无乱码免费 | 国产足控福利视频一区| 国模一区二区三区白浆| 久久96国产精品久久99软件| 欧美性二区| 亚洲精品456| 中文字幕一区二区三区日韩精品| 最新国产一区二区| 亚洲一区二区福利视频| 精品福利一区二区| 国产精品一级在线| 激情久久综合| 九九视频69精品视频秋欲浓| 欧美一区二区三区久久| 久久人人97超碰婷婷开心情五月| 久久久精品视频在线| 国产一区二区三区在线电影| 日本午夜精品一区二区三区| 国产精品一区二区三| 国产有码aaaae毛片视频| www色视频岛国| 午夜精品999| 国产欧美一区二区精品性| 欧美激情图片一区二区| 999久久久国产| 日韩中文字幕在线一区| 综合国产一区| 国产精品久久久久精| 国产精品人人爽人人做av片| 国产69精品久久99不卡解锁版| 国产精品第56页| 亚洲福利视频一区二区| 国产精品一二三区视频网站| 国产伦精品一区二区三区电影| 国产一区二区在| 亚洲精品一区二区三区香蕉| 国产91高清| 538在线一区二区精品国产| 国产精品一区久久人人爽| 国产高清一区二区在线观看| 国产三级国产精品国产专区50| aaaaa国产欧美一区二区| 国产精品一区二| 国产欧美一区二区精品久久久| 亚洲视频精品一区| 国产欧美日韩另类| 国产一区二区三区色噜噜小说| 性刺激久久久久久久久九色| 国产欧美精品一区二区在线播放| 26uuu亚洲电影在线观看| 国产精品二区一区二区aⅴ| 4399午夜理伦免费播放大全| 亚洲精品日韩激情欧美| 国产精品日韩一区二区| av午夜电影| 黄色av免费| 欧美精品在线一区二区| 亚洲精品国产一区二区三区| 丝袜脚交一区二区| 片毛片免费看| 国产91刺激对白在线播放| 国产一区二三| 国产精品久久久久久久久久软件| 久久一区欧美| 国产精品二区一区| 丝袜诱惑一区二区三区| 91av一区二区三区| 午夜wwww| 久久精视频| 亚洲精品人| 国产精品日韩在线观看| 高清国产一区二区 | 国产日韩精品久久| 日本福利一区二区| 欧美日韩中文字幕三区| 日本一区二区三区在线视频| 国产视频一区二区不卡| 午夜精品在线播放| 国产在线播放一区二区| 国产精品剧情一区二区三区| 国产精品高潮呻吟三区四区 | 日韩毛片一区| 性生交大片免费看潘金莲| 国产精品999久久久| 国产精品9区| 日韩一级视频在线| 日本精品一二区| 日韩精品久久久久久中文字幕8| 国产精品麻豆99久久久久久| 超碰97国产精品人人cao| 综合久久一区| 91一区二区在线观看| 日韩精品一区二区三区四区在线观看| 国产精品高潮在线| 国产欧美一区二区精品久久久| 日韩精品一区在线观看| 69xx国产| 欧美日韩激情一区二区| 色噜噜狠狠色综合中文字幕 | 亚洲乱视频| 免费观看又色又爽又刺激的视频| 欧洲亚洲国产一区二区三区| 欧美日本三级少妇三级久久| 香港三日本8a三级少妇三级99 | 国产盗摄91精品一区二区三区| 国产在线视频99| 国产88在线观看入口| 日本一区二区三区免费播放| 鲁丝一区二区三区免费观看| 久久婷婷国产综合一区二区| 九九热国产精品视频 | 91久久国产露脸精品| 海量av在线| 国产精品视频一区二区在线观看 | 欧美乱战大交xxxxx| 伊人av中文av狼人av | 日韩av在线播| 福利片午夜| 欧美精品一区二区三区四区在线| 国产精品九九九九九| 亚洲精品国产一区二区三区| 一区二区三区免费高清视频| 欧美freesex极品少妇| 国产精品国产三级国产专区52| 日本xxxxxxxxx68护士 | 国产一二区在线| 欧美一级不卡| 国产99久久九九精品免费| 国内揄拍国产精品| 国产乱老一区视频| 夜夜嗨av禁果av粉嫩av懂色av| 91亚洲欧美日韩精品久久奇米色| 亚洲精品日本久久一区二区三区| av午夜电影| 国产日韩欧美精品一区| 91久久精品国产91久久性色tv| 欧美一区二区色| 四虎久久精品国产亚洲av| 欧美性xxxxx极品少妇| 日本精品三区| 欧美福利一区二区| 中文字幕国内精品| 中文字幕一二三四五区| 久久九精品| 夜夜躁人人爽天天天天大学生| 国产精品二区一区| 美女脱免费看直播| 国产区一二| 国产精品麻豆一区二区三区| 欧美日韩中文不卡| 国产一二区在线| 午夜精品一区二区三区aa毛片| 精品一区欧美| 欧美一区二区三区在线视频播放| 99久久精品一区二区| 窝窝午夜精品一区二区| 精品一区二区三区中文字幕| 国产精品日韩电影| 亚洲国产精品91| 日韩欧美国产精品一区| 久久密av| 丰满岳乱妇bd在线观看k8| 国产精品午夜一区二区三区视频| 亚洲欧美中日精品高清一区二区| 国产一区二区在线观| 国产日韩欧美三级| 国产精品一区二区在线观看| 久久一区二区三区视频| 久久精品男人的天堂| 日本白嫩的18sex少妇hd| 神马久久av| 欧美三级午夜理伦三级中视频 | 99精品国产一区二区三区麻豆| 午夜三级电影院| 国产精品视频久久久久久久| 欧美亚洲精品suv一区| 91精品国产91热久久久做人人| 日韩中文字幕区一区有砖一区| 国产精品美女www爽爽爽视频| 久久er精品视频| 国产一区二区在| 午夜无人区免费网站| 国产精品欧美一区二区视频| 亚洲欧美另类综合| 久久一区二区三区视频| 国产第一区在线观看| 538国产精品| 日韩一区二区三区福利视频| 综合在线一区| 午夜电影一区| 欧美乱妇在线视频播放| 日日夜夜精品免费看| 国产色99| 欧美精品在线一区二区| 一区二区三区在线观看国产| 国产精品天堂| 日韩av在线高清| freexxxxxxx| 欧美日韩精品在线播放| 国产精品综合久久| 一区二区三区四区中文字幕|