[發明專利]一種反爬蟲保護關鍵信息的方法有效
| 申請號: | 202010031517.2 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111245838B | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 張冰 | 申請(專利權)人: | 四川坤翔科技有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06K7/14 |
| 代理公司: | 成都天嘉專利事務所(普通合伙) 51211 | 代理人: | 蔣斯琪 |
| 地址: | 610014 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 爬蟲 保護 關鍵 信息 方法 | ||
本發明公開了一種反爬蟲保護關鍵信息的方法,其主要實現步驟為:將網站展示信息劃分為普通信息和關鍵信息,并生成包含關鍵信息ID和反爬模塊URL入口地址的二維碼。當用戶需要查詢關鍵信息時,通過手持終端掃描或長按識別二維碼,反爬模塊采集用戶ID進行判斷分析,如果用戶ID被判斷為非正常用戶,則阻斷其后續訪問;如果被判斷為正常用戶,則關聯關鍵信息ID對應的關鍵信息并在手持終端自動展示給用戶。從上述步驟中可以看出,本發明以簡單快捷地實現低成本保護網站及保護關鍵信息不被非法爬取,同時還可以大幅度提升用戶的體驗。
技術領域
本發明涉及互聯網信息安全中的反爬蟲技術,特別是一種反爬蟲保護關鍵信息的方法。
背景技術
最新互聯網安全公司Imperva對全球10萬個域名的網站訪問進行分析,稱全球范圍內約52%的互聯網流量來自“機器人”。自2012年Imperva公司監測網絡流量以來,機器產生的網絡流量就連續五年超過人類產生的流量,僅在2015年人類產生的流量以微弱優勢反超過一次,但數據也很快被反撲。也就是說,現有的網站大部分訪問者不是人類,而是自動化程序的執行,業內將這類自動化程序簡稱為爬蟲。
經研究統計,全球互聯網請求中大概約有20%為惡意爬蟲所產生。數年來惡意爬蟲的比例高居不下,其中主要以竊取互聯網上的權威和核心商業數據為目標,非法盜用他人數據而獲取私利,還通過強硬的技術手段對加密數據進行破解,廣大數據運營廠商深受其害,因此信息安全領域中對于數據防護技術的訴求日漸強烈。
為了保護服務端數據被非法獲取,以及減輕服務器壓力,因此需要解決如何識別連接服務端的客戶端是否部署機器人的自動化程序,業內將這種阻止爬蟲機器人訪問的通過技術手段簡稱反爬蟲技術。
為了阻止現在爬蟲機器人,現有主流的反爬蟲技術及其優劣對比如下:
1、ID連續性問題
這種方法,主要通過自定義生成隨機主鍵方案實現反爬蟲。由于大多數數據表會使用數據庫主鍵自動生成機制,爬蟲程序可按照有序的ID自己生成ID來爬取數據,所以該方案可有效避免爬蟲按ID規律順序抓取內容。但是因為ID不連續,在查找定位問題時,不方便查找,而且爬蟲程序容易調整,跳過不連續。
2、robots.txt配置
robots.txt是一種存放于網站根目錄下的ASCII編碼的文本文件,通常告訴用戶,該網站中的哪些內容是不應被獲取的,哪些是可以被獲取的。通過robots.txt這個文件,可以告訴那些知名網站搜索引擎等不要爬取自己不想被爬取得內容,即告訴搜索機器人不要爬行該網站的部分網頁,也就是俗稱的君子協議。但是這個文件也僅僅是告訴,是非強制性的,可以遵守也可以不遵守,因此這就導致很多爬蟲私下并不遵守這個協議,還是會非法爬取內容,限制性很弱。
3、User-Agent檢測
無論是瀏覽器還是爬蟲程序,在向服務器發起網絡請求的時候,都會發過去一個頭文件:headers,這個頭文件里面的大多數字段都是瀏覽器用于向服務器“表明身份”的,對于爬蟲程序來說,最需要注意的字段就是:User-Agent,因此很多網站都會建立user-agent白名單,只有屬于正常范圍的user-agent才能夠正常訪問。該方法具體是采用攔截器攔截到每一個請求,取得Header,拿到User-Agent,對于黑白名單的處理如下:
(1)白名單法:首先設置自己的白名單用戶代理集,包括市面上主流的代理,抓到請求的UA進行對比,如果包含,則通過,否則請求不予通過。
(2)黑名單法:python、java、php這些程序爬蟲會攜帶這些信息,由于白名單難以完全窮舉市面所有UA,所以可以采用黑名單法,禁止包含這些的請求通過。
通過名單篩選,確實可以過濾一小部分簡單粗暴的爬蟲。但是,大多數爬蟲都會偽造這些UA,所以此法也會經常失效。
4、有限數據訪問
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川坤翔科技有限公司,未經四川坤翔科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010031517.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





