[發明專利]一種解決Web證書認證的爬蟲方法在審

申請號：	201711405633.0	申請日：	2017-12-22
公開（公告）號：	CN107944055A	公開（公告）日：	2018-04-20
發明（設計）人：	王曉斌;傅玉生;勇萌哲;田坤鵬	申請（專利權）人：	成都優易數據有限公司
主分類號：	G06F17/30	分類號：	G06F17/30;G06F11/36
代理公司：	成都弘毅天承知識產權代理有限公司51230	代理人：	徐金瓊,劉東
地址：	611730 四川省成都市郫縣德源鎮（菁***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種解決 web 證書認證爬蟲方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及有證書的Web爬蟲方法領域，尤其是一種解決Web證書認證的爬蟲方法。

背景技術

Selenium自動化工具：基于Web的自動化測試工具，它提供了一系列測試函數，用于支持Web自動化測試，這些函數非常靈活，它們能夠通過許多方式定位界面元素。Scrapy爬蟲框架：是一個快速、高層次的屏幕抓取和Web抓取框架，用于抓取Web站點并從頁面中提取結構化的數據。URL：統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示，是互聯網上標準資源的地址；互聯網上的每個文件都有一個唯一的URL，它包含的信息指出文件的位置以及瀏覽器應該怎么處理它。網站安全證書：通過在客戶端瀏覽器和Web服務器之間建立一條SSL安全通道保證了雙方傳遞信息的安全性，而且用戶可以通過服務器證書驗證他所訪問的網站是否真實可靠。

現在很多網站訪問的時候都需要提供證書才能夠正常訪問，瀏覽器只對安裝過證書的用戶提供訪問，這樣可以讓網站更具的安全性；對于無證書的網站，Scrapy爬蟲框架比較完善，可以實現爬蟲工作；當我們通過爬蟲去訪問一個有證書的網站的時候，Scrapy無法完成對有證書的Web進行數據采集，網站打不開并且采集不到任何信息；現有技術中Selenium自動化工具，對于一些簡單的單機爬蟲實現比較容易，但是對于大型的、分布式的爬蟲系統來說，自動化工具Selenium是無法實現的；如何對有證書驗證的網站進行爬蟲工作是從事爬蟲工作者來說是一個必須解決的問題，所以需要一種Web證書認證的爬蟲方法通過結合自動化工具Selenium和Scrapy爬蟲框架實現對有證書的網站進行爬蟲工作的同時還可以擴展Scrapy爬蟲框架和自動化工具Selenium的作用。

發明內容

本發明的目的在于：本發明提供了一種解決Web證書認證的爬蟲方法，解決了現有Scrapy爬蟲框架無法完成對有證書驗證的網站的爬蟲工作的問題。

本發明采用的技術方案如下：

一種解決Web證書認證的爬蟲方法，包括如下步驟：

步驟1：獲取目標網站的Web證書后根據證書的類型選擇不同的方式導入證書獲取Scrapy爬蟲框架訪問URL的權限；

步驟2：在Scrapy爬蟲框架的下載中間件DownLoad Middleware中集成自動化工具Selenium實現Scrapy爬蟲框架訪問URL暨模擬為瀏覽器訪問；

步驟3：基于步驟2進入瀏覽器后重寫Scrapy爬蟲框架中的下載中間件Downloader Middleware，并使用自動化工具Selenium的Webdriver獲取Web頁內容，將其返回給Scrapy爬蟲框架中的爬蟲Spider并進行解析獲取數據完成爬蟲工作。

優選地，所述步驟3包括如下步驟：

步驟3.1：Scrapy引擎從調度器Scheduler中取出要訪問的URL，并將其封裝為請求Request傳給集成了自動化工具Selenium的下載器Downloader；

步驟3.2：集成了自動化工具Selenium的下載器Downloader將資源下載后封裝為應答包Response；

步驟3.3：爬蟲Spider解析應答包Response得到實體Item后交由實體Item管道處理并將處理完的數據進行存儲完成爬蟲工作。

優選地，所述步驟1包括如下步驟：

步驟1.1：獲取目標網站的Web證書后判斷采集數據過程中是否需要加載瀏覽器，若是，跳至步驟1.2；若否，跳至步驟1.3；

步驟1.2：提前導入證書；

步驟1.3：在爬蟲Spider訪問對應Web的URL時，附帶證書的存放路徑。

綜上所述，由于采用了上述技術方案，本發明的有益效果是：

1.本發明通過在Scrapy爬蟲框架集成自動化工具Selenium，通過運行代碼后根據配置的網頁驅動軟件Webdriver啟動對應的瀏覽器，實現對需要證書的訪問，導入證書實現Scrapy爬蟲框架訪問URL，完成有證書驗證瀏覽器的爬蟲工作，Scrapy爬蟲框架完善且成熟，功能齊全，解決了現有Scrapy爬蟲框架無法完成對有證書驗證的網站的爬蟲工作的問題，達到了高效實現有證書驗證的爬蟲工作的效果；

2.本發明的Scrapy爬蟲框架結合自動化工具Selenium自動化測試，實現登錄、并發、存儲、監控和Scrapy，功能擴展極廣，效率高且穩定性強；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于成都優易數據有限公司，未經成都優易數據有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711405633.0/2.html，轉載請聲明來源鉆瓜專利網。