[發明專利]一種解決Web證書認證的爬蟲方法在審
| 申請號: | 201711405633.0 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN107944055A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 王曉斌;傅玉生;勇萌哲;田坤鵬 | 申請(專利權)人: | 成都優易數據有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/36 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司51230 | 代理人: | 徐金瓊,劉東 |
| 地址: | 611730 四川省成都市郫縣德源鎮(菁*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 解決 web 證書 認證 爬蟲 方法 | ||
1.一種解決Web證書認證的爬蟲方法,其特征在于:包括如下步驟:
步驟1:獲取目標網站的Web證書后根據證書的類型選擇不同的方式導入證書獲取Scrapy爬蟲框架訪問URL的權限;
步驟2:在Scrapy爬蟲框架的下載中間件DownLoad Middleware中集成自動化工具Selenium實現Scrapy爬蟲框架訪問URL暨模擬為瀏覽器訪問;
步驟3:基于步驟2進入瀏覽器后重寫Scrapy爬蟲框架中的下載中間件Downloader Middleware,并使用自動化工具Selenium的Webdriver獲取Web頁內容,將其返回給Scrapy爬蟲框架中的爬蟲Spider并進行解析獲取數據完成爬蟲工作。
2.根據權利要求1所述的一種解決Web證書認證的爬蟲方法,其特征在于:所述步驟3包括如下步驟:
步驟3.1:Scrapy引擎從調度器Scheduler中取出要訪問的URL,并將其封裝為請求Request傳給集成了自動化工具Selenium的下載器Downloader;
步驟3.2:集成了自動化工具Selenium的下載器Downloader將資源下載后封裝為應答包Response;
步驟3.3:爬蟲Spider解析應答包Response得到實體Item后交由實體Item管道處理并將處理完的數據進行存儲完成爬蟲工作。
3.根據權利要求1所述的一種解決Web證書認證的爬蟲方法,其特征在于:所述步驟1包括如下步驟:
步驟1.1:獲取目標網站的Web證書后判斷采集數據過程中是否需要加載瀏覽器,若是,跳至步驟1.2;若否,跳至步驟1.3;
步驟1.2:提前導入證書;
步驟1.3:在爬蟲Spider訪問對應Web的URL時,附帶證書的存放路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都優易數據有限公司,未經成都優易數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711405633.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能表分揀小助手
- 下一篇:多媒體文件的識別方法、裝置、終端及存儲介質





