[發(fā)明專利]一種提取網(wǎng)頁中驗證碼圖片的方法有效
| 申請?zhí)枺?/td> | 201210192428.1 | 申請日: | 2012-06-08 |
| 公開(公告)號: | CN102737122A | 公開(公告)日: | 2012-10-17 |
| 發(fā)明(設(shè)計)人: | 卜佳俊;陳純;韓沖;王燦;宋明黎;王煒;何占盈 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/00;G06K9/62 |
| 代理公司: | 杭州天正專利事務(wù)所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 提取 網(wǎng)頁 驗證 圖片 方法 | ||
1.一種提取網(wǎng)頁中驗證碼圖片的方法,其特征在于,包括以下步驟:
1)獲取瀏覽器當(dāng)前活動頁面所有IMG節(jié)點信息;
2)根據(jù)預(yù)先制定的驗證碼圖片評分策略,對IMG節(jié)點所包含的圖片信息進(jìn)行評分,評分最高的即為包含驗證碼圖片的IMG節(jié)點;
3)如果步驟2)無法獲取所有IMG節(jié)點,則以驗證碼輸入框為焦點截取其周圍的局部圖片將驗證碼圖片包含在內(nèi);利用預(yù)先訓(xùn)練得到的分類檢測模型獲取驗證碼圖片的具體位置;
4)將驗證碼圖片單獨保存。
2.根據(jù)權(quán)利要求1所述的獲取瀏覽器當(dāng)前活動頁面所有IMG節(jié)點信息,其特征在于,具體步驟為:
1)確定瀏覽器當(dāng)前活動頁面;
2)自頂向下,獲取活動頁面的所有IMG節(jié)點信息,IMG節(jié)點信息包含了圖片位置,圖片大小,圖片長寬,圖片關(guān)鍵字等信息。
3.根據(jù)權(quán)利要求1所述的根據(jù)預(yù)先制定的驗證碼圖片評分策略,對IMG節(jié)點所包含的圖片信息進(jìn)行評分,評分最高的即為包含驗證碼圖片的IMG節(jié)點,其特征在于,具體步驟為:
獲取瀏覽器當(dāng)前活動頁面的所有IMG節(jié)點的信息,利用預(yù)先制定的驗證碼評分策略對所有的IMG節(jié)點的信息進(jìn)行評分,評分最高的IMG節(jié)點即是驗證碼圖片所在的IMG節(jié)點。
4.根據(jù)權(quán)利要求1所述的以驗證碼輸入框為焦點截取其周圍的局部圖片將驗證碼圖片包含在內(nèi);利用預(yù)先訓(xùn)練得到的分類檢測模型獲取驗證碼圖片的具體位置,其特征在于,具體步驟為:
1)如果不能獲取活動頁面的所有IMG節(jié)點,則有可能獲取不到驗證碼圖片所在的IMG節(jié)點。這時,可以以驗證碼輸入框為焦點截取其周圍的局部圖片將驗證碼圖片包含在內(nèi)。
2)對局部圖片進(jìn)行處理,根據(jù)驗證碼圖片的顏色、紋理梯度特征,利用驗證碼分類器模型,將其從局部圖片中識別出來,并處理成單獨的驗證碼圖片。
5.根據(jù)權(quán)利要求1所述的將驗證碼圖片單獨保存,其特征在于,具體步驟為:
由于驗證碼圖片的特殊性,對其進(jìn)行操作有可能會改變圖片,因此要采取特殊的保存圖片的方式。如果可以獲取到所有的IMG節(jié)點,則利用驗證碼評分策略,選擇驗證碼圖片所在的IMG節(jié)點,可以根據(jù)IMG節(jié)點中圖片的位置信息,進(jìn)行精確截屏,獲得驗證碼圖片;否則,以驗證碼輸入框為焦點截取其周圍的局部圖片將驗證碼圖片包含在內(nèi),利用驗證碼分類模型將驗證碼圖片所在的矩形區(qū)域進(jìn)行截取,獲得驗證碼圖片。
6.根據(jù)權(quán)利要求4所述的對局部圖片進(jìn)行處理,根據(jù)驗證碼圖片的顏色、紋理等特征,利用驗證碼分類器,將其從局部圖片中識別出來,并處理成單獨的驗證碼圖片,其特征在于,具體步驟為:
1)建立驗證碼圖片的樣本空間,提取樣本局部顏色、紋理、梯度特征,通過機(jī)器學(xué)習(xí)建立驗證碼圖片分類器模型;
2)對于局部圖片,利用滑動窗口模型得到備選矩形區(qū)域;
3)對步驟2)生成每一個矩形區(qū)域,用步驟1)生成的驗證碼分類器判斷是不是驗證碼圖片,如果是該矩形區(qū)域符合驗證碼圖片的特征,則將其從局部圖片中截取并單獨保存生成驗證碼圖片。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210192428.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





