[發明專利]網頁爬取方法及裝置在審
| 申請號: | 201710085587.4 | 申請日: | 2017-02-16 |
| 公開(公告)號: | CN108446287A | 公開(公告)日: | 2018-08-24 |
| 發明(設計)人: | 余清富 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 訪問請求 網頁 統一資源定位符 網頁數據 截取 訪問 | ||
1.一種網頁爬取方法,其特征在于,包括:
從第一網站截取訪問所述第一網站的訪問請求,其中,所述訪問請求的來源為第二網站;
從所述來源的統一資源定位符中獲取所述第二網站的信息,其中,所述第二網站的信息包括待爬取用戶在所述第二網站的賬號信息;
根據所述第二網站的信息從所述第二網站上爬取網頁。
2.根據權利要求1所述的方法,其特征在于,根據所述信息從所述第二網站上爬取網頁包括:
通過多線程中的爬取線程使用預定賬號登錄所述第二網站,其中,所述多線程包括多個所述爬取線程,每個所述爬取線程對應一個所述預定賬號;
在使用預定賬號登錄所述第二網站之后,使用所述第二網站的賬號從所述第二網站上爬取網頁。
3.根據權利要求2所述的方法,其特征在于,使用所述第二網站的賬號從所述第二網站上爬取網頁包括:
獲取預先配置的限制信息;
控制所述爬取線程根據所述限制信息中的訪問速度從所述第二網站上爬取網頁。
4.根據權利要求2所述的方法,其特征在于,通過多線程中的爬取線程使用預定賬號登錄所述第二網站還包括:
為所述多線程中的每個線程綁定一個固定的網絡地址。
5.根據權利要求2所述的方法,其特征在于,在登錄所述第二網站需要驗證碼的情況下,使用所述預定賬號登錄所述第二網站包括以下至少之一:
根據預設方式輸入驗證碼使用所述預定賬號登錄所述第二網站;
獲取以圖片形式出現的所述驗證碼,對所述圖片中的驗證碼進行識別,并根據識別出的所述驗證碼使用所述預定賬號登錄所述第二網站。
6.根據權利要求5所述的方法,其特征在于,對所述圖片中的驗證碼進行識別包括:
根據數據模型對所述圖片中的驗證碼進行識別,其中,所述數據模型是根據多個訓練數據訓練得到的,所述訓練數據包括:預先獲取到的所述第二網站的驗證碼圖片與該驗證碼圖片對應的驗證碼。
7.根據權利要求5所述的方法,其特征在于,對所述圖片中的驗證碼進行識別包括:
獲取所述圖片中的多個特征信息,其中,所述特征信息用于區分所述驗證碼和所述圖片的背景;
根據所述多個特征信息對所述圖片中的驗證碼進行識別。
8.一種網頁爬取裝置,其特征在于,包括:
截取單元,用于從第一網站截取訪問所述第一網站的訪問請求,其中,所述訪問請求的來源為第二網站;
獲取單元,用于從所述來源的統一資源定位符中獲取所述第二網站的信息,其中,所述第二網站的信息包括待爬取用戶在所述第二網站的賬號信息;
爬取單元,用于根據所述第二網站的信息從所述第二網站上爬取網頁。
9.根據權利要求8所述的裝置,其特征在于,所述爬取單元包括:
登錄模塊,用于通過多線程中的爬取線程使用預定賬號登錄所述第二網站,其中,所述多線程包括多個所述爬取線程,每個所述爬取線程對應一個所述預定賬號;
爬取模塊,用于在使用預定賬號登錄所述第二網站之后,使用所述第二網站的賬號從所述第二網站上爬取網頁。
10.根據權利要求9所述的裝置,其特征在于,所述爬取模塊包括:
第一獲取模塊,用于獲取預先配置的限制信息;
控制模塊,用于控制所述爬取線程根據所述限制信息中的訪問速度從所述第二網站上爬取網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710085587.4/1.html,轉載請聲明來源鉆瓜專利網。





