[發(fā)明專利]驗證碼自動識別方法及裝置在審
| 申請?zhí)枺?/td> | 201811588846.6 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN111368835A | 公開(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計)人: | 趙培;姚小龍;武晨 | 申請(專利權(quán))人: | 順豐科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06N3/08 |
| 代理公司: | 北京志霖恒遠(yuǎn)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11435 | 代理人: | 周穎穎 |
| 地址: | 518061 廣東省深圳市南山區(qū)學(xué)府路(以南)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 驗證 自動識別 方法 裝置 | ||
本申請公開一種驗證碼自動識別方法及裝置,方法包括如下步驟:步驟1:基于圖像處理庫獲取多個同一類型的驗證碼圖片,生成驗證碼圖片集;步驟2:基于seq2seq+attention深度神經(jīng)網(wǎng)絡(luò)模型,使用驗證碼圖片集中的部分驗證碼圖片訓(xùn)練模型,剩余的驗證碼圖片對訓(xùn)練后的模型進(jìn)行測試,得到驗證碼識別模型;步驟3:根據(jù)驗證碼識別模型識別待破解的驗證碼圖片。裝置對應(yīng)于上述方法。本發(fā)明提供的驗證碼識別技術(shù),自動高效識別驗證碼,極大的提高系統(tǒng)維護(hù)工作的自動化效率,從而提高整個系統(tǒng)的穩(wěn)定性。
技術(shù)領(lǐng)域
本申請一般涉及機(jī)器學(xué)習(xí)的技術(shù)領(lǐng)域,具體涉及一種驗證碼識別方法,尤其涉及一種驗證碼自動識別方法及裝置。
背景技術(shù)
在互聯(lián)網(wǎng)技術(shù)發(fā)達(dá)的今天,為防止機(jī)器人自動注冊登錄網(wǎng)站進(jìn)行惡意操作,大多數(shù)網(wǎng)站都采用了驗證碼技術(shù)(隨機(jī)生成一串需要人為識別帶有干擾、形變的字符)。然而在很多系統(tǒng)維護(hù)工作中通過驗證碼提升數(shù)據(jù)安全性,但是識別驗證碼的過程往往會極大的降低維護(hù)工作的效率;對于許多機(jī)器學(xué)習(xí)項目而言,往往需要通過爬蟲獲取大量的原始數(shù)據(jù),許多網(wǎng)站通過驗證碼等技術(shù)限制了爬蟲獲得數(shù)據(jù)的能力。
傳統(tǒng)破解驗證碼的方法往往是:首先進(jìn)行圖片預(yù)處理操作(去噪+二值化),再對圖片進(jìn)行字符分割,最后對分割出的每個字符進(jìn)行識別。這樣識別方法泛化能力不強(qiáng),往往需要根據(jù)不同類型的驗證碼構(gòu)建不同的圖像預(yù)處理以及分割操作,并且預(yù)處理的好壞直接影響最終的處理結(jié)果。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中的上述缺陷或不足,期望提供一種驗證碼自動識別方法及裝置。
第一方面,本發(fā)明提供一種驗證碼自動識別方法,包括如下步驟:
步驟1:基于圖像處理庫獲取多個同一類型的驗證碼圖片,生成驗證碼圖片集;
步驟2:基于seq2seq+attention深度神經(jīng)網(wǎng)絡(luò)模型,使用所述驗證碼圖片集中的部分驗證碼圖片訓(xùn)練模型,剩余的驗證碼圖片對訓(xùn)練后的模型進(jìn)行測試,得到驗證碼識別模型;
步驟3:根據(jù)所述驗證碼識別模型識別待破解的驗證碼圖片。
第二方面,本發(fā)明提供一種驗證碼自動識別裝置,包括:
驗證碼獲取模塊,用于基于圖像處理庫獲取多個同一類型的驗證碼圖片,生成驗證碼圖片集;
神經(jīng)網(wǎng)絡(luò)模型構(gòu)建模塊,用于基于seq2seq+attention深度神經(jīng)網(wǎng)絡(luò)模型,使用所述驗證碼圖片集中的部分驗證碼圖片訓(xùn)練模型,剩余的驗證碼圖片對訓(xùn)練后的模型進(jìn)行測試,得到驗證碼識別模型;
識別模塊,用于根據(jù)所述驗證碼識別模型識別待破解的驗證碼圖片。
本發(fā)明提供的驗證碼自動識別方法,利用基于圖像處理庫的開發(fā)框架,開發(fā)一套生成驗證碼圖片的程序,生成多個驗證碼圖片作為驗證碼識別的訓(xùn)練數(shù)據(jù)基礎(chǔ);使用端到端的seq2seq+attention深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練驗證碼識別模型,對驗證碼圖片實現(xiàn)實時自動化識別,不需要進(jìn)行字符分割,針對不同類型不同長度的驗證碼圖片,僅需要以不同的樣本重新訓(xùn)練即可,不需要調(diào)整模型超參數(shù),泛化能力強(qiáng);基于自動加載驗證碼識別模型,減少模型加載次數(shù),提高識別的時間效率和系統(tǒng)的空間效率。本發(fā)明提高的驗證碼識別技術(shù),極大的提高系統(tǒng)維護(hù)工作的自動化效率,從而提高整個系統(tǒng)的穩(wěn)定性。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1為本發(fā)明實施例提供的驗證碼自動識別方法的流程示意圖;
圖2為本發(fā)明實施例提供的創(chuàng)建驗證碼圖片集的流程示意圖;
圖3為本發(fā)明實施例提供的訓(xùn)練測試得驗證碼識別模型的流程示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于順豐科技有限公司,未經(jīng)順豐科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811588846.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





