[發(fā)明專利]一種基于自動(dòng)化爬蟲的驗(yàn)證碼識(shí)別的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011154780.7 | 申請(qǐng)日: | 2020-10-26 |
| 公開(公告)號(hào): | CN112380409A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 舒文兵;李偉 | 申請(qǐng)(專利權(quán))人: | 武漢天寶萊信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/957;G06F21/36 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)光谷大道*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自動(dòng)化 爬蟲 驗(yàn)證 識(shí)別 方法 | ||
1.一種基于自動(dòng)化爬蟲的驗(yàn)證碼識(shí)別的方法,其特征在于,包括:步驟一、爬蟲任務(wù)的下發(fā)、預(yù)處理以及超時(shí)異常等處理;步驟二、確定圖片驗(yàn)證碼,通過requests或者xpath等方式獲取圖片驗(yàn)證碼;步驟三、采用一種深度卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行識(shí)別圖片驗(yàn)證碼;步驟四、通過爬蟲程序驗(yàn)證其結(jié)果并保存所需要數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于自動(dòng)化爬蟲的驗(yàn)證碼識(shí)別的方法,其特征在于:所述步驟一中的對(duì)爬蟲任務(wù)的下發(fā)、預(yù)處理以及超時(shí)異常等處理包括異常任務(wù)重新下發(fā)、直到圖片驗(yàn)證碼出現(xiàn)。
3.根據(jù)權(quán)利要求1所述的一種基于自動(dòng)化爬蟲的驗(yàn)證碼識(shí)別的方法,其特征在于:所述步驟二中確定圖片驗(yàn)證碼,通過requests或者xpath等方式獲取圖片驗(yàn)證碼包括:持續(xù)訪問直到頁面出現(xiàn)圖片驗(yàn)證碼;對(duì)出現(xiàn)的圖片驗(yàn)證碼通過requests方式或者xpath定位的方式去獲取圖片內(nèi)容。
4.根據(jù)權(quán)利要求1所述的一種基于自動(dòng)化爬蟲的驗(yàn)證碼識(shí)別的方法,其特征在于:所述步驟三所述采用一種深度卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行識(shí)別圖片驗(yàn)證碼包括:(1)、訓(xùn)練集合生成,收集大量圖片驗(yàn)證碼或者使用python驗(yàn)證碼生成庫,生成十萬個(gè)驗(yàn)證碼,驗(yàn)證碼生成的步驟:隨機(jī)在英文大小寫字母和數(shù)字中選擇四個(gè)字符、創(chuàng)建背景圖片、添加噪聲以及字符扭曲干擾手段,最終四位數(shù)驗(yàn)證碼總共有62×62×62×62種不同的可能以及不同的干擾手段;獲得數(shù)據(jù)集后就要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,(2)、開始構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),a、前向傳播組成:三個(gè)卷積層,三個(gè)池化層,四個(gè)dropout防過擬合層,兩個(gè)全連接層,四個(gè)Relu激活函數(shù),所述卷積層的前向傳播使用Relu激活,函數(shù)式如公式所示,b、反向傳播組成:計(jì)算損失、采用梯度下降的方法獲取極值、目標(biāo)預(yù)測(cè)、使用AdamOptimizer優(yōu)化器優(yōu)化算法,更新權(quán)值并計(jì)算準(zhǔn)確率、參數(shù)更新,所述卷積層的計(jì)算損失使用sigmoid交叉熵函數(shù),函數(shù)式如公式
LosscrossEntropy=-[y0labellogy0pred+y1labellogy1pred]
=-[y1labellogy1pred+(1-y1label)log(1-y1pred)]所示:sigmoid函數(shù)的輸出就是標(biāo)簽值為一的樣本對(duì)應(yīng)的預(yù)測(cè)值,故得出如公式結(jié)果,c、卷積過程:矩陣對(duì)應(yīng)位置相乘再相加,要求相乘的兩個(gè)矩陣寬、高必須相同(比如大小都是m*n),全連接(矩陣乘法):它要求第一個(gè)矩陣的列和第二個(gè)矩陣的行必須相同,比如矩陣A大小m* n,矩陣B大小n *k,紅色部分必須相同,得到結(jié)果大小就是m*k,(3)、批量輸入(1)中訓(xùn)練集數(shù)據(jù),多次進(jìn)行Epoch,準(zhǔn)確率明顯提高,(4)、重復(fù)(3)操作,并計(jì)算準(zhǔn)確率,準(zhǔn)確率高于設(shè)定值,保存參數(shù)并結(jié)束訓(xùn)練,(5)、構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)完成后,調(diào)用程序運(yùn)行得到結(jié)果。
5.根據(jù)權(quán)利要求2所述的一種基于自動(dòng)化爬蟲的驗(yàn)證碼識(shí)別的方法,其特征在于:所述驗(yàn)證圖片驗(yàn)證碼結(jié)果,如錯(cuò)誤,返回步驟(5),否則爬蟲繼續(xù)并保存所需要數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢天寶萊信息技術(shù)有限公司,未經(jīng)武漢天寶萊信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011154780.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)化設(shè)備和自動(dòng)化系統(tǒng)
- 一種基于流程驅(qū)動(dòng)的測(cè)試自動(dòng)化方法以及測(cè)試自動(dòng)化系統(tǒng)
- 用于工業(yè)自動(dòng)化設(shè)備認(rèn)識(shí)的系統(tǒng)和方法
- 實(shí)現(xiàn)過程自動(dòng)化服務(wù)的標(biāo)準(zhǔn)化設(shè)計(jì)方法學(xué)的自動(dòng)化系統(tǒng)
- 一種日產(chǎn)50萬安時(shí)勻漿自動(dòng)化系統(tǒng)
- 一種自動(dòng)化肥料生產(chǎn)系統(tǒng)
- 一種電氣自動(dòng)化設(shè)備自動(dòng)檢測(cè)系統(tǒng)及檢測(cè)方法
- 用于自動(dòng)化應(yīng)用的抽象層
- 一種基于虛擬化架構(gòu)的自動(dòng)化系統(tǒng)功能驗(yàn)證方法
- 自動(dòng)化測(cè)試框架自動(dòng)測(cè)試的實(shí)現(xiàn)技術(shù)
- 檢測(cè)反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)
- 驗(yàn)證系統(tǒng)、驗(yàn)證服務(wù)器、驗(yàn)證方法、驗(yàn)證程序、終端、驗(yàn)證請(qǐng)求方法、驗(yàn)證請(qǐng)求程序和存儲(chǔ)媒體
- 驗(yàn)證目標(biāo)系統(tǒng)的驗(yàn)證系統(tǒng)及其驗(yàn)證方法
- 驗(yàn)證設(shè)備、驗(yàn)證方法和驗(yàn)證程序
- 驗(yàn)證裝置、驗(yàn)證系統(tǒng)以及驗(yàn)證方法
- 驗(yàn)證方法、驗(yàn)證系統(tǒng)、驗(yàn)證設(shè)備及其程序
- 驗(yàn)證方法、用于驗(yàn)證的系統(tǒng)、驗(yàn)證碼系統(tǒng)以及驗(yàn)證裝置
- 圖片驗(yàn)證碼驗(yàn)證方法和圖片驗(yàn)證碼驗(yàn)證裝置
- 驗(yàn)證裝置、驗(yàn)證程序和驗(yàn)證方法
- 驗(yàn)證裝置、驗(yàn)證方法及驗(yàn)證程序
- 跨多個(gè)驗(yàn)證域的驗(yàn)證系統(tǒng)、驗(yàn)證方法、驗(yàn)證設(shè)備





