[發(fā)明專利]一種基于自動化爬蟲的驗證碼識別的方法在審
| 申請?zhí)枺?/td> | 202011154780.7 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112380409A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設計)人: | 舒文兵;李偉 | 申請(專利權)人: | 武漢天寶萊信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/957;G06F21/36 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖北省武漢市東湖新技術開發(fā)區(qū)光谷大道*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動化 爬蟲 驗證 識別 方法 | ||
本發(fā)明涉及了一種基于自動化爬蟲的驗證碼識別的方法,包括以下步驟:S1、爬蟲任務的下發(fā)、預處理以及超時異常等處理,S2、確定圖片驗證碼,通過requests或者xpath等方式獲取圖片驗證碼,S3、采用一種深度卷積神經網絡方法進行圖片驗證碼識別,S4、通過爬蟲程序驗證其結果并保存所需要數(shù)據(jù)。本發(fā)明可以在被爬取網站需要圖片驗證碼限制網絡爬蟲爬取網站內容時,通過自動化程序識別驗證碼,保證自動化爬蟲的正常進行,能提高爬蟲整體效率的效率、降低人力成本,能更及時發(fā)現(xiàn)故障、提高運行安全性。
技術領域
本發(fā)明涉及計算機軟件技術領域,具體為一種基于自動化爬蟲的驗證碼識別的方法。
背景技術
在互聯(lián)網飛速發(fā)展的網絡背景下,搜索引擎在人們的生活工作中無疑扮演著重要的角色,而網絡爬蟲則是搜索引擎技術的關鍵部分,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成,傳統(tǒng)爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件,聚焦爬蟲的工作流程較為復雜,需要根據(jù)一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列,然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程。
目前的網絡爬蟲大多數(shù)都是避開遇到圖片驗證碼的情況或者使用人工的方式去解決這個問題,這兩種方式在使用時會出現(xiàn)很多的條件限制,而且以上兩種方式都不適用于純自動化爬蟲,所爬取到的數(shù)據(jù)需要大量的篩選步驟才能夠達到符合我們需要的數(shù)據(jù)信息,這期間我們需要花費很多時間對其重新分析和過濾,故我們提出了一種基于自動化爬蟲的驗證碼識別的方法發(fā)明項目。
發(fā)明內容
解決的技術問題
本發(fā)明主要解決的技術問題是,本發(fā)明提供了一種基于自動化爬蟲的驗證碼識別的方法,具備在有圖片驗證碼的情況下仍不需要人工介入的一種自動化爬蟲程序等優(yōu)點,解決了我們在正常爬取過程中可以在被爬取網站需要圖片驗證碼限制網絡爬蟲爬取網站內容時,通過自動化程序識別驗證碼,保證自動化爬蟲的正常進行,能提高爬蟲整體效率的效率、降低人力成本,能更及時發(fā)現(xiàn)故障、提高運行安全性。
(二)技術方案
為實現(xiàn)上述在有圖片驗證碼的情況下仍不需要人工介入的一種自動化爬蟲程序的目的,本發(fā)明提供如下技術方案:一種基于自動化爬蟲的驗證碼識別的方法,包括:步驟一、爬蟲任務的下發(fā)、預處理以及超時異常等處理;步驟二、確定圖片驗證碼,通過requests或者xpath等方式獲取圖片驗證碼;步驟三、采用一種深度卷積神經網絡方法進行識別圖片驗證碼;步驟四、通過爬蟲程序驗證其結果并保存所需要數(shù)據(jù)。
優(yōu)選的,所述步驟一中的對爬蟲任務的下發(fā)、預處理以及超時異常等處理包括異常任務重新下發(fā)、直到圖片驗證碼出現(xiàn)。
優(yōu)選的,所述步驟二中確定圖片驗證碼,通過requests或者xpath等方式獲取圖片驗證碼包括:持續(xù)訪問直到頁面出現(xiàn)圖片驗證碼;對出現(xiàn)的圖片驗證碼通過requests方式或者xpath定位的方式去獲取圖片內容。
優(yōu)選的,所述步驟三所述采用一種深度卷積神經網絡方法進行識別圖片驗證碼包括:(1)、訓練集合生成,收集大量圖片驗證碼或者使用python驗證碼生成庫,生成十萬個驗證碼,驗證碼生成的步驟:隨機在英文大小寫字母和數(shù)字中選擇四個字符、創(chuàng)建背景圖片、添加噪聲以及字符扭曲干擾手段,最終四位數(shù)驗證碼總共有62×62×62×62種不同的可能以及不同的干擾手段;獲得數(shù)據(jù)集后就要對數(shù)據(jù)進行預處理,(2)、開始構建卷積神經網絡,a、前向傳播組成:三個卷積層,三個池化層,四個dropout防過擬合層,兩個全連接層,四個Relu激活函數(shù),所述卷積層的前向傳播使用Relu激活,函數(shù)式如公式所示,b、反向傳播組成:計算損失、采用梯度下降的方法獲取極值、目標預測、使用AdamOptimizer優(yōu)化器優(yōu)化算法,更新權值并計算準確率、參數(shù)更新,所述卷積層的計算損失使用sigmoid交叉熵函數(shù),函數(shù)式如公式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢天寶萊信息技術有限公司,未經武漢天寶萊信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011154780.7/2.html,轉載請聲明來源鉆瓜專利網。





