[發明專利]一種基于圖片驗證碼識別的網絡爬蟲方法有效
| 申請號: | 201711415807.1 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN108062468B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 閔信志;劉計爭;高成俊 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F21/36 | 分類號: | G06F21/36;G06F16/951 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 楊海軍 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖片 驗證 識別 網絡 爬蟲 方法 | ||
1.一種基于圖片驗證碼識別的網絡爬蟲方法,其特征在于,具體包括如下步驟:
步驟一、爬蟲程序的預處理和構建,具體包括:
101、使用瀏覽器持續訪問需要爬蟲爬取的網頁,一直到出現圖片驗證碼;
102、獲取圖片驗證碼區域的xpath路徑,計為路徑1;
103、在圖片驗證碼驗證成功后,選擇一處圖片驗證碼驗證成功后階段網頁有別于其它階段網頁的html元素的xpath路徑,計為路徑2;
104、繼續使用瀏覽器訪問網頁,一直到出現IP被限制訪問,然后,選擇一處出現IP被限制訪問階段網頁有別于其他網頁的html元素的xpath路徑,計為路徑3;
所述爬蟲程序的構建包括:
構造爬蟲程序的輸入文件,每行文件內容為json格式,包含proxy和url兩個字符串節點;
使用Selenium,配合Chrome Driver和java語言環境api,通過瀏覽器內置的自動化支持操作瀏覽器;
步驟二、計算機加載爬蟲程序,使用瀏覽器訪問網頁;
步驟三、在網絡請求超時、代理IP被限制訪問、出現圖片驗證碼時,由爬蟲程序進行不同處理,在訪問到爬蟲需要爬取的網頁時,將網頁的內容下載并保存,具體處理方式為:
a)將爬蟲程序的輸入文件加載到計算機的內存中;
b)當存在前一次程序運行產生的、包含被網站限制訪問的IP的文件時,加載該文件內容到計算機內存列表1中;
c)取一行輸入文件內容,得到代理IP;
d)判斷代理IP是否存在于內存列表1中,如果是,到返回步驟c),否則跳到步驟f);
e)從與步驟c)同一行內容,獲取請求url;
f)使用上一步獲取到的url,發起網絡請求;
g)判斷網頁加載時間是否超過設定的閾值,如果是,則到步驟h),否則跳到步驟k);
h)判斷網頁刷新次數是否超過閾值,如果是,則到步驟i),否則跳到步驟j);
i)記錄步驟c)的文件行內容到文件1,然后返回步驟c);
j)刷新網頁內容,返回步驟g);
k)利用所述路徑3,判斷代理IP是否被限制訪問,如果是,則到步驟l),否則跳到步驟m);
l)記錄被限制訪問的代理IP到文件2,并將此代理IP加入內存列表1;
m)利用所述路徑1,判斷是否出現圖片驗證碼,如果否,則到步驟n),否則跳到步驟o);
n)將網頁內容寫入文件3,然后返回步驟c);
o)程序等待,由人工完成圖片驗證碼;
p)判斷圖片驗證碼是否驗證成功,如果是,則返回步驟n),否則返回步驟o)。
2.如權利要求1所述的一種基于圖片驗證碼識別的網絡爬蟲方法,其特征在于:所述步驟i)中,所述文件1在程序結束后,作為下一次程序開始時的輸入文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711415807.1/1.html,轉載請聲明來源鉆瓜專利網。





