[發明專利]應對網頁woff字體反爬蟲的爬蟲方法和裝置在審
| 申請號: | 202011135071.4 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN114385881A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 王思昊;李晴洋;艾成;戴永恒;劉學謙 | 申請(專利權)人: | 電科云(北京)科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/957 |
| 代理公司: | 北京金咨知識產權代理有限公司 11612 | 代理人: | 宋教花 |
| 地址: | 100041 北京市石景山*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應對 網頁 woff 字體 爬蟲 方法 裝置 | ||
本發明提供一種應對網頁woff字體反爬蟲的爬蟲方法和裝置。所述方法包括:獲取網頁的網絡地址,并獲取網站主體的參數信息;獲取所述網絡地址中的層疊樣式表css鏈接,并從中獲取評論類型的woff字體文件,基于獲取的woff字體文件獲取文字與對應編碼的對應關系;請求評論網絡地址,添加主體參數信息,并返回json格式的結果;提取所述json格式的結果中評論映射信息并轉換為真實文字內容;保存抓取的真實文字內容。本發明能夠在爬取數據時對網站的woff字體反爬措施進行有效應對,對采用了woff字體反爬技術的網站實現數據的準確、完整的抓取。
技術領域
本發明涉及爬蟲技術領域,特別涉及一種應對網頁woff字體反爬蟲的爬蟲方法和裝置。
背景技術
當今所處于一個數據量爆炸式增長的時代。隨著互聯網人口增長,截至2019年6月,已有超過44億互聯網用戶。過去用GB(吉字節,或稱千兆字節)、TB(太字節,或稱兆兆字節)、PB(拍字節,或稱千萬億字節)來形容數據量大小,但現在每年增長量不止于此。未來幾年中,互聯網每年數據增長量將達到ZB(澤字節,或稱十萬億億字節)級。
隨著智能手機、個人可攜帶設備的飛速發展與普及,個人互聯網用戶無時無刻不在產生大量數據,這些數據通過社交網絡等形式交織融匯在一起,形成巨大的關系網絡。所以說當今時代是一個大數據的時代,掌握了數據就掌握了資源,獲取互聯網上公開的數據就是爬蟲存在的意義。
但是,最初的數據產生平臺的運營者有的并不希望自己的數據被其他機構或個人輕松獲取,即便這些數據是公開、可以在網上閱讀到的。也即,這些數據所有者會想盡辦法防止爬蟲輕易獲取他們的數據,于是各種反爬蟲措施應運而生。其中,使用字體反爬的有多種形式。例如,有的網站最初使用的是svg(Scalable Vector Graphics,可縮放矢量圖形)+css(Cascading Style Sheet,層疊樣式表)映射定位的方式實現反爬蟲,該反爬蟲技術可稱為svg字體反爬技術。如圖1所示為svg字體反爬技術的svg+css映射定位方式的示例。如圖1所示,d標簽內并沒有直接文字顯示,是通過圖示標號2的svg進行引入的,引用文字位置信息為圖示標號3的兩個數值。如果打開標號為2的svg鏈接,可以看到如圖2所示的內容示例。如圖2所示,頁面中引用svg標簽,text標簽中對x、y坐標進行了位置排版,每一個標簽中的文本字符串都根據位置對應一個x、y坐標。這種字體反爬技術已應用多年,svg字體反爬破解方法在廣大爬蟲工程師中也使用較為普遍。例如,爬蟲在對爬取位置d標簽的class(類)內容獲取后,根據頁面中css對應的class值如圖1標號1的“vhkbvu”,在css中定位到樣式位置獲取background對應的x、y值,再到svg鏈接中進行映射即可獲取到網頁要顯示的真實文本。
目前有一些網站的網頁仍在使用svg字體反爬技術,但由于svg字體反爬破解方法在廣大爬蟲工程師中使用也變得較為普遍,于是又出現了另一種叫做woff(Web Open FontFormat,Web開放字體格式)字體反爬的升級版的文字反爬技術。woff字體反爬出現后,使用此反爬技術的網站日漸增多,由此成為一種被普遍應用的反爬蟲技術。
而如何應對woff字體反爬技術實現數據的快速、全面的抓取,是一個有待解決的問題。
發明內容
鑒于現有技術中存在的問題,本發明實施例提供了一種應對網頁woff字體反爬蟲的爬蟲方法和裝置,以應對woff字體反爬技術實現數據的抓取。
本發明的技術方案如下:
一種應對網頁woff字體反爬蟲的爬蟲方法,該方法包括以下步驟:
獲取網站中網頁的網絡地址,并獲取網站主體的參數信息;
獲取所述網絡地址中的層疊樣式表css鏈接,并從中獲取預定的類的woff字體文件鏈接,基于獲取的woff字體文件鏈接獲取文字與對應編碼的對應關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電科云(北京)科技有限公司,未經電科云(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135071.4/2.html,轉載請聲明來源鉆瓜專利網。





