[發明專利]自演進的網絡自適應爬蟲方法及系統有效
| 申請號: | 201710798931.4 | 申請日: | 2017-09-07 |
| 公開(公告)號: | CN107580052B | 公開(公告)日: | 2020-04-10 |
| 發明(設計)人: | 何有樹;莫默;唐東;周維軍 | 申請(專利權)人: | 翼果(深圳)科技有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L29/12;G06F16/951;G06N5/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 演進 網絡 自適應 爬蟲 方法 系統 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種自演進的網絡自適應爬蟲方法及系統。
背景技術
互聯網的信息每天海量增長,大量的信息中潛在著巨大的商業價值,網絡爬蟲為采集互聯網中的海量信息而存在。由于互聯網的信息過于巨大,這對網絡爬蟲的采集能力、經濟性都是巨大的考驗;同時,網絡信息瞬息萬變,及時采集這些信息也顯得非常重要。
目前,網站為提供大流量處理能力的同時提供系統的可靠性,一般同時存在多個IP地址提供同等Web服務。現有的爬蟲主要包括2種采集方法,一種通過DNS(Domain Name System,域名系統)查詢IP再訪問,由于DNS Cache(緩存服務)原因,導致每次查到的IP是同樣的,使爬蟲不能充分利用多個服務端;另一種預先保存域名與IP地址對應關系,通過替換URL中的域名為IP地址的方法實現負荷分擔,這使爬蟲對很多網站不能訪問,因為很多目標網站限制只能使用域名訪問,例如新浪微博等。
此外,互聯網中不同的目標網站對采集系統有不同的限制策略,這使得網絡爬蟲不得不為各種目標網站增加各種配置項,開發人員不得不花費很多時間調試目標網站的參數,才能使爬蟲系統正常工作,但是很多因素需要運行一段時間才會觸發,因此每過一段時間需要檢查其工作狀態是否正常,分析大量日志,修改爬蟲配置參數,再使其正常工作,整個過程中需要持續消耗研發人力。
發明內容
本發明實施例所要解決的技術問題在于,提供一種自演進的網絡自適應爬蟲方法及系統,以使提高爬蟲的采集能力同時能夠使爬蟲自動適應目標網站的配置項。
為了解決上述技術問題,本發明實施例提出了一種自演進的網絡自適應爬蟲方法,包括:
步驟1:接收采集任務以及目標網站的IP地址或域名,當接收的為IP地址時直接進入步驟4,當接收的為域名時則根據域名查詢對應的域名IP列表是否存在于自建的DNS系統的記錄中,記錄若存在,則查詢記錄是否超時,若未超時,則進入步驟4;若記錄不存在或記錄超時,則進入步驟2;
步驟2:查詢目標網站的域名對外提供服務的所有IP地址;
步驟3:探測查詢到的IP地址是否有效,將有效的IP地址生成與目標網站對應的域名IP列表,并更新至自建的DNS系統;
步驟4:探測并保存與目標網站對應的IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,并基于域名IP列表結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;
步驟5:根據機器學習的規則知識庫預測對應的采集模型,并根據采集模型設置爬蟲的參數值,采集目標網站的數據。
相應地,本發明實施例還提供了一種自演進的網絡自適應爬蟲系統,包括:
采集模塊:接收采集任務以及目標網站的IP地址或域名,當接收的為IP地址時,探測IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,并結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;當接收的為域名時則根據域名查詢對應的域名IP列表是否存在于自建的DNS系統的記錄中,記錄若存在,則查詢記錄是否超時,若未超時,則探測對應的域名IP列表內IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,并基于域名IP列表結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;若記錄不存在或記錄超時,則查詢目標網站的域名對外提供服務的所有IP地址,并探測查詢到的IP地址是否有效,將有效的IP地址生成與目標網站對應的域名IP列表,并更新至自建的DNS系統,再探測對應的域名IP列表內各IP地址的網絡環境或引用在預設期限內的之前任務所探測對應的網絡探測結果,基于域名IP列表并結合IP地址的網絡探測結果進行負荷分擔,分配爬蟲的采集任務;根據機器學習的規則知識庫預測對應的采集模型,并根據采集模型設置爬蟲的參數值,采集目標網站的數據。
本發明實施例通過提出一種自演進的網絡自適應爬蟲方法及系統,所述爬蟲方法包括步驟1~步驟5,通過獲取自建的DNS系統中目標網站對外提供服務的所有IP地址列表并結合網絡能力探測結果來生成負荷分擔任務,以及通過機器學習的規則知識庫預測最高成功率的采集模型,解決了爬蟲采集能力差及需經常修改爬蟲配置參數的問題,進而達到了提高爬蟲的采集能力同時能夠使爬蟲自動適應目標網站的配置項的技術效果。
附圖說明
圖1是本發明實施例的自演進的網絡自適應爬蟲方法的流程示意圖。
圖2是本發明一種實施例的域名對應的IP地址的示意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于翼果(深圳)科技有限公司,未經翼果(深圳)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710798931.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種繞線器及數據傳輸裝置
- 下一篇:一種枸杞采摘裝置





