[發(fā)明專利]一種selenium支持自定義請求頭的方法、電子設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 201910695785.1 | 申請日: | 2019-07-30 |
| 公開(公告)號: | CN110377813A | 公開(公告)日: | 2019-10-25 |
| 發(fā)明(設(shè)計)人: | 鄭燦金;朱小軍 | 申請(專利權(quán))人: | 廣州吉信網(wǎng)絡科技開發(fā)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/955 |
| 代理公司: | 廣東翰銳律師事務所 44442 | 代理人: | 陳業(yè)勝;蘇少華 |
| 地址: | 510000 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 擴展功能 權(quán)限擴展 自定義 字段 網(wǎng)絡請求 瀏覽器 調(diào)用 瀏覽器支持 電子設(shè)備 獲取數(shù)據(jù) 接口添加 文件打包 文件執(zhí)行 限定條件 加載 減小 打包 網(wǎng)頁 權(quán)限 計算機 概率 網(wǎng)絡 | ||
本發(fā)明公開了一種selenium支持自定義請求頭的方法,包括如下步驟:瀏覽器權(quán)限擴展:獲取瀏覽器擴展功能所需的權(quán)限,使得瀏覽器支持自定義修改網(wǎng)絡請求的請求頭中字段的內(nèi)容,并將權(quán)限擴展文件打包;selenium增加擴展功能:打包的權(quán)限擴展文件通過接口添加至selenium的調(diào)用字段中用于啟用擴展功能;selenium執(zhí)行擴展功能:每次通過selenium請求網(wǎng)絡時,調(diào)用權(quán)限擴展文件執(zhí)行自定義修改請求頭中字段的內(nèi)容的擴展功能。本方法通過使得selenium支持修改網(wǎng)絡請求頭中的所有字段,可以降低被限定條件加載的網(wǎng)頁限制的概率,使用簡單且計算機的負擔小,減小了獲取數(shù)據(jù)的成本。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)采集技術(shù),尤其是一種selenium支持自定義請求頭的方法、電子設(shè)備和介質(zhì)。
背景技術(shù)
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,數(shù)據(jù)作為其根本研究對象,發(fā)揮著越來越舉足輕重的作用。數(shù)據(jù)如何高速獲取,成為了目前研究的重要課題之一,爬蟲技術(shù)作為互聯(lián)網(wǎng)數(shù)據(jù)獲取的基本技術(shù)手段,可以自動地獲取互聯(lián)網(wǎng)內(nèi)的信息。
當前互聯(lián)網(wǎng)中存在很多不友好爬蟲,如在一定時間內(nèi)被爬的次數(shù)過高,會給網(wǎng)站和服務器帶來過高的負荷,使其難以正常運行,因此,很多網(wǎng)站都會通過很多方式來阻止爬蟲對本網(wǎng)站的信息抓取,一般會通過增加頁面加載過程的復雜度,和識別訪問的請求頭中的信息來判斷是否為爬蟲而非正常訪問的用戶。
Selenium是現(xiàn)有的一款開源友好的web端自動化爬蟲工具,可以直接運行在瀏覽器中,用來模擬用戶操作。其具有多種優(yōu)勢,例如支持多種瀏覽器(如IE、Firefox、Safari、Chrome、Android手機瀏覽器等)、多種語言(如Java、C#、Python、Ruby、PHP等)、多種操作系統(tǒng)(如Java、C#、Python、Ruby、PHP等),因此具有廣泛的使用基礎(chǔ)。
在真實的http請求數(shù)據(jù)包中,必須包含請求頭headers,請求頭會包含多個必要字段,用于告知被訪問的服務器這個數(shù)據(jù)包的來源和身份,這些必要字段有Accept-Encoding、Accept-Language、Cookie、Host、User-Agent等。但是由于原始的Selenium開源框架本神的技術(shù)缺陷,通過selenium訪問時,僅支持修改User-Agent字段,其余字段無法修改,這種限制使得部分復雜的自動化業(yè)務無法實現(xiàn),在復雜的動態(tài)JS加載的部分網(wǎng)頁數(shù)據(jù)無法成功提取,或容易被服務器識別為禁止訪問的爬蟲鏈接從而禁止訪問。
為了解決這個技術(shù)問題,現(xiàn)有技術(shù)中有采用了其它技術(shù)與修改User-Agent字段的功能相結(jié)合的方法,例如隨機代理IP、隨機請求間隔、切換瀏覽器等方式,來使得爬蟲操作更接近實際用戶操作。然而這些方法中隨機的內(nèi)容所需成本較高,需同時運行的進程較多容易使得計算機負荷過高,分析使用起來較難、獲取數(shù)據(jù)成本也較高。
發(fā)明內(nèi)容
本發(fā)明目的在于針對上述背景技術(shù)中存在的問題,提供一種selenium支持自定義請求頭的方法、電子設(shè)備和介質(zhì),通過使得selenium支持修改網(wǎng)絡請求頭中的所有字段,降低被限定條件加載的網(wǎng)頁限制的概率,使用簡單且計算機的負擔小,減小了獲取數(shù)據(jù)的成本。
為了達到上述目的,本發(fā)明的技術(shù)方案有:
一種selenium支持自定義請求頭的方法,包括如下步驟:
瀏覽器權(quán)限擴展:獲取瀏覽器擴展功能所需的權(quán)限,使得瀏覽器支持自定義修改網(wǎng)絡請求的請求頭中字段的內(nèi)容,并將權(quán)限擴展文件打包;
selenium增加擴展功能:打包的權(quán)限擴展文件通過接口添加至selenium的調(diào)用字段中用于啟用擴展功能;
selenium執(zhí)行擴展功能:每次通過selenium請求網(wǎng)絡時,調(diào)用權(quán)限擴展文件執(zhí)行自定義修改請求頭中字段的內(nèi)容的擴展功能。
優(yōu)選地,每次執(zhí)行所述selenium執(zhí)行擴展功能時,修改請求頭中至少4個字段的內(nèi)容。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州吉信網(wǎng)絡科技開發(fā)有限公司,未經(jīng)廣州吉信網(wǎng)絡科技開發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910695785.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種附件權(quán)限類型擴展的方法、裝置及系統(tǒng)
- 一種基于運行環(huán)境狀態(tài)的Android權(quán)限細粒度訪問控制方法
- PaaS系統(tǒng)中的java安全驗證方法及裝置
- 一種瀏覽器的防護方法及裝置
- 用戶設(shè)備的權(quán)限管理的控制方法及系統(tǒng)
- 一種訪問控制權(quán)限的擴展方法及裝置
- 一種按鈕操作站的智能權(quán)限控制裝置
- 一種selenium支持自定義請求頭的方法、電子設(shè)備和介質(zhì)
- 一種權(quán)限管理方法、設(shè)備以及存儲介質(zhì)
- Kafka集群多類型權(quán)限管理方法、裝置及存儲介質(zhì)





