[發明專利]一種基于自動化爬蟲的驗證碼識別的方法在審
| 申請號: | 202011154780.7 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112380409A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 舒文兵;李偉 | 申請(專利權)人: | 武漢天寶萊信息技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/957;G06F21/36 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖北省武漢市東湖新技術開發區光谷大道*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動化 爬蟲 驗證 識別 方法 | ||
1.一種基于自動化爬蟲的驗證碼識別的方法,其特征在于,包括:步驟一、爬蟲任務的下發、預處理以及超時異常等處理;步驟二、確定圖片驗證碼,通過requests或者xpath等方式獲取圖片驗證碼;步驟三、采用一種深度卷積神經網絡方法進行識別圖片驗證碼;步驟四、通過爬蟲程序驗證其結果并保存所需要數據。
2.根據權利要求1所述的一種基于自動化爬蟲的驗證碼識別的方法,其特征在于:所述步驟一中的對爬蟲任務的下發、預處理以及超時異常等處理包括異常任務重新下發、直到圖片驗證碼出現。
3.根據權利要求1所述的一種基于自動化爬蟲的驗證碼識別的方法,其特征在于:所述步驟二中確定圖片驗證碼,通過requests或者xpath等方式獲取圖片驗證碼包括:持續訪問直到頁面出現圖片驗證碼;對出現的圖片驗證碼通過requests方式或者xpath定位的方式去獲取圖片內容。
4.根據權利要求1所述的一種基于自動化爬蟲的驗證碼識別的方法,其特征在于:所述步驟三所述采用一種深度卷積神經網絡方法進行識別圖片驗證碼包括:(1)、訓練集合生成,收集大量圖片驗證碼或者使用python驗證碼生成庫,生成十萬個驗證碼,驗證碼生成的步驟:隨機在英文大小寫字母和數字中選擇四個字符、創建背景圖片、添加噪聲以及字符扭曲干擾手段,最終四位數驗證碼總共有62×62×62×62種不同的可能以及不同的干擾手段;獲得數據集后就要對數據進行預處理,(2)、開始構建卷積神經網絡,a、前向傳播組成:三個卷積層,三個池化層,四個dropout防過擬合層,兩個全連接層,四個Relu激活函數,所述卷積層的前向傳播使用Relu激活,函數式如公式所示,b、反向傳播組成:計算損失、采用梯度下降的方法獲取極值、目標預測、使用AdamOptimizer優化器優化算法,更新權值并計算準確率、參數更新,所述卷積層的計算損失使用sigmoid交叉熵函數,函數式如公式
LosscrossEntropy=-[y0labellogy0pred+y1labellogy1pred]
=-[y1labellogy1pred+(1-y1label)log(1-y1pred)]所示:sigmoid函數的輸出就是標簽值為一的樣本對應的預測值,故得出如公式結果,c、卷積過程:矩陣對應位置相乘再相加,要求相乘的兩個矩陣寬、高必須相同(比如大小都是m*n),全連接(矩陣乘法):它要求第一個矩陣的列和第二個矩陣的行必須相同,比如矩陣A大小m* n,矩陣B大小n *k,紅色部分必須相同,得到結果大小就是m*k,(3)、批量輸入(1)中訓練集數據,多次進行Epoch,準確率明顯提高,(4)、重復(3)操作,并計算準確率,準確率高于設定值,保存參數并結束訓練,(5)、構建卷積神經網絡完成后,調用程序運行得到結果。
5.根據權利要求2所述的一種基于自動化爬蟲的驗證碼識別的方法,其特征在于:所述驗證圖片驗證碼結果,如錯誤,返回步驟(5),否則爬蟲繼續并保存所需要數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢天寶萊信息技術有限公司,未經武漢天寶萊信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011154780.7/1.html,轉載請聲明來源鉆瓜專利網。





