[發(fā)明專利]一種通過接碼平臺和selenium突破點選驗證碼的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202111035365.4 | 申請日: | 2021-09-01 |
| 公開(公告)號: | CN113806713A | 公開(公告)日: | 2021-12-17 |
| 發(fā)明(設(shè)計)人: | 姚東濟(jì);謝傳家 | 申請(專利權(quán))人: | 浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司 |
| 主分類號: | G06F21/36 | 分類號: | G06F21/36 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 馮春連 |
| 地址: | 214029 江蘇省無錫市濱*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 通過 平臺 selenium 突破 點選 驗證 方法 系統(tǒng) | ||
本發(fā)明公開一種通過接碼平臺和selenium突破點選驗證碼的方法及系統(tǒng),涉及數(shù)據(jù)保護(hù)技術(shù)領(lǐng)域,具體實現(xiàn)包括:步驟S1、分析和定位點選驗證圖片在瀏覽器網(wǎng)頁源碼的xpath路徑;步驟S2、根據(jù)S1的xpath路徑,使用selenium對存在點選驗證碼的頁面指定的驗證碼圖片進(jìn)行截圖;步驟S3、將S2中的截圖發(fā)送給第三方接碼平臺,并接收返回結(jié)果;步驟S4、解析S3的返回結(jié)果,并按順序?qū)⒔Y(jié)果坐標(biāo)進(jìn)行格式化;步驟S5、根據(jù)S1的xpath路徑,selenium控制瀏覽器將鼠標(biāo)定位到驗證碼圖片上;步驟S6、根據(jù)S4中的坐標(biāo)按順序,selenium依次點擊圖片驗證碼的相應(yīng)位置完成驗證。本發(fā)明可以提高爬蟲采集數(shù)據(jù)的能力和效力,拓寬數(shù)據(jù)來源。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)保護(hù)技術(shù)領(lǐng)域,具體的說是一種通過接碼平臺和selenium突破點選驗證碼的方法及系統(tǒng)。
背景技術(shù)
在互聯(lián)網(wǎng)科技深度發(fā)展下,大數(shù)據(jù)技術(shù)成為一門具備獨(dú)特魅力的新的科學(xué)。
伴隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,數(shù)據(jù)呈現(xiàn)爆發(fā)式的增長。大數(shù)據(jù)其數(shù)據(jù)的豐富性和多樣性以及數(shù)據(jù)的延續(xù)性使其成為一種重要的生產(chǎn)資料和生產(chǎn)力。通過對龐大規(guī)模的數(shù)據(jù)進(jìn)行處理和分析,能夠有效的提升決策水平,并且能夠更加有效的整合資源。
大數(shù)據(jù)技術(shù)的前提是數(shù)據(jù)規(guī)模大,數(shù)據(jù)種類豐富,這就給數(shù)據(jù)的收集和存儲帶來更大的挑戰(zhàn)。爬蟲技術(shù)是一種重要的數(shù)據(jù)來源,但也面臨著眾多的困難。這其中比較常見的就是紛繁復(fù)雜的驗證碼。通過使用驗證碼來防止爬蟲是一種常見的反爬蟲方式。
基于此,設(shè)計研發(fā)一種通過接碼平臺和selenium突破點選驗證碼的方法及系統(tǒng),以提高爬蟲采集數(shù)據(jù)的能力和效力,拓寬數(shù)據(jù)來源。
發(fā)明內(nèi)容
本發(fā)明針對目前技術(shù)發(fā)展的需求和不足之處,提供一種通過接碼平臺和selenium突破點選驗證碼的方法及系統(tǒng),以提高爬蟲采集數(shù)據(jù)的能力和效力,拓寬數(shù)據(jù)來源。
首先,本發(fā)明提供一種通過接碼平臺和selenium突破點選驗證碼的方法,解決上述技術(shù)問題采用的技術(shù)方案如下:
一種通過接碼平臺和selenium突破點選驗證碼的方法,使用selenium驅(qū)動瀏覽器,將點選驗證碼圖片發(fā)送到第三方接碼平臺,獲得點選位置坐標(biāo),繼而驅(qū)動selenium根據(jù)返回坐標(biāo)突破點選驗證碼。
具體的,所涉及方法的具體實現(xiàn)過程包括:
步驟S1、分析和定位點選驗證圖片在瀏覽器網(wǎng)頁源碼的xpath路徑;
步驟S2、根據(jù)步驟S1的xpath路徑,使用selenium對存在點選驗證碼的頁面指定的驗證碼圖片進(jìn)行截圖;
步驟S3、將步驟S2中的截圖發(fā)送給第三方接碼平臺,并接收返回結(jié)果;
步驟S4、解析步驟S3的返回結(jié)果,并按順序?qū)⒔Y(jié)果坐標(biāo)進(jìn)行格式化;
步驟S5、根據(jù)步驟S1的xpath路徑,selenium控制瀏覽器將鼠標(biāo)定位到驗證碼圖片上;
步驟S6、根據(jù)步驟S4中的坐標(biāo)按順序,selenium依次點擊圖片驗證碼的相應(yīng)位置完成驗證。
更具體的,執(zhí)行步驟S3時,將步驟S2中的截圖首先序列化為base64,隨后發(fā)送給第三方接碼平臺。
更具體的,所涉及方法的具體實現(xiàn)過程中,可以點選任意個位置的驗證碼圖片。
其次,本發(fā)明提供一種通過接碼平臺和selenium突破點選驗證碼的系統(tǒng),解決上述技術(shù)問題采用的技術(shù)方案如下:
一種通過接碼平臺和selenium突破點選驗證碼的系統(tǒng),其實現(xiàn)基于selenium和第三方接碼平臺;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司,未經(jīng)浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111035365.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計算機(jī)或計算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計算機(jī)系統(tǒng)或計算機(jī)網(wǎng)絡(luò)中的節(jié)點
G06F21-22 .通過限制訪問或處理程序或過程
- 利用TCL實現(xiàn)網(wǎng)頁自動化測試的方法及系統(tǒng)
- 一種基于selenium的爬蟲抓取方法及系統(tǒng)
- 基于selenium的測試中間件、測試系統(tǒng)及方法
- 一種使用JavaScript腳本輔助Selenium的自動化測試方法
- 基于Selenium自動化的性能測試腳本錄制方法
- 一種selenium支持自定義請求頭的方法、電子設(shè)備和介質(zhì)
- 一種基于windows系統(tǒng)的UI自動化執(zhí)行系統(tǒng)
- 一種基于Selenium生成輿情報告的方法
- 基于selenium框架的web自動化測試系統(tǒng)、測試方法和測試裝置
- 一種PC終端WEB認(rèn)證過程的自動化測試方法





