[發明專利]一種基于分布式的網絡自適應分類爬蟲方法在審
| 申請號: | 202010868327.6 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN111984848A | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 王之瓊;信俊昌;汪宇;閆東蕾;雷盛楠;王司亓;唐俊日;隋玲 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958;G06F21/56;G06K9/62 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布式 網絡 自適應 分類 爬蟲 方法 | ||
本發明公開一種基于分布式的網絡自適應分類爬蟲方法,屬于網絡爬蟲和反爬蟲技術領域,該方法首先是采用支持向量基SVM對各信息源網站進行反爬蟲技術的精確分類;然后根據反爬蟲手段的分類結果選擇與之相抗衡的爬蟲策略,最后基于分布式的自適應爬蟲技術進行數據爬取,對分類模型進行評估。該方法可以用于輿情大數據的獲取。這樣根據反爬蟲技術的不同分類,能更加精準有效的采用與之相抗衡的爬蟲技術破解,快速獲取信息源的數據。極大程度上減少了不必要的測試被反爬手段規避掉的風險。
技術領域
本發明涉及網絡爬蟲和反爬蟲技術領域,尤其涉及一種基于分布式的網絡自適應分類爬蟲方法。
背景技術
信息源網站的內容數據是網站服務提供商的主要收益來源之一,網絡供應商出于保護數據的目的,會采取手段避免網站被非搜索引擎之外的爬蟲訪問。信息源的反爬蟲手段,即一系列反爬蟲措施的集合,應運而生,這就對數據的有效獲取很不利。其反爬蟲機制通過預處理請求頭、封鎖IP、異步加載、使用JS加密算法、設置驗證碼、多個機制結合等措施達到封鎖爬蟲的目的。以并發封鎖為例,如果爬取頻率過低;雖然可以降低資源消耗,規避信息源訪問閾值限制,但是會造成數據爬取效率低等問題;如果爬取頻率過高,雖然可以提高數據獲取效率,但是很可能受到信息源反爬蟲技術的并發限制技術影響,導致爬蟲IP被封鎖的情況。因此,如果信息源的反爬蟲技術與所使用的爬蟲技術產生沖突,會導致數據獲取的錯誤甚至完全失效。因此如何突破反爬蟲手段的限制,成為了數據獲取的難點。
由于大型信息源網站的反爬蟲機制、網絡信息噪音、輿情數據雜亂等因素的共同影響,準確、高效的獲取海量高質量輿情數據十分困難。因此精確地確定信息源的反爬蟲機制,并選擇合適的數據獲取策略,“有的放矢”,對大大提高數據信息源獲取效率起著至關重要的作用。目前雖然很多工具對信息數據的爬取有一定效果,但是并沒有對數據源網站的反爬手段進行分類分析。反爬策略也不一定比較全面有效。
發明內容
針對上述現有技術的不足,本發明提供一種基于分布式的網絡自適應分類爬蟲方法。
為解決上述技術問題,本發明所采取的技術方案是:一種基于分布式的網絡自適應分類爬蟲方法,包括如下步驟:
步驟1:獲取一些目標信息源網站的結構信息,提取各網站的特征進行分析,查找到各網站的反爬手段存在的特性,根據反爬手段存在的特性來判斷各網站區分爬蟲程序和正常用戶的手段,過程如下:
步驟1.1:觀察其javascript代碼,利用Navigator對象來判斷客戶端是否通過WebDriver驅動瀏覽器,達到Selenium檢測手段;
步驟1.2:信息源網站通過檢測瀏覽器請求頭中的User-Agent值與navigator;將userAgent屬性值與navigator.platform屬性值對比,當不一致時判斷為爬蟲程序;
步驟1.3:根據客戶端向服務器端發出網絡請求的頻率,將訪問頻率過高的客戶端視為爬蟲程序;
步驟1.4:隱藏用于檢測爬蟲程序的鏈接,被隱藏的鏈接不顯示在頁面中,正常用戶無法訪問,但爬蟲程序有可能將該鏈接放入待爬隊列,并向該鏈接發起請求,從而區分出正常用戶和爬蟲程序;
步驟1.5:利用限制用戶的權限及驗證手段來阻礙爬蟲程序獲取目標數據,如驗證碼和過濾器。
步驟2:利用已有的信息源的網站結構信息,構建網站反爬特征的數據集,過程如下:
對步驟1檢測到的各網站的反爬手段進行分類并添加分類標簽,構建網站的反爬特征數據集;
所述分類標簽包括:selenium瀏覽器驅動檢測,User-Agent黑名單手段,封鎖IP,設置陷阱鏈和校驗驗證碼。
步驟3:建立機器學習支持向量機SVM分類模型,采用合頁損失函數作為模型的損失函數,并初始化模型參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010868327.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋼管堿洗裝置和鋼管堿洗處理工藝
- 下一篇:一種皮鞋鞋盒制造用高效畫線裝置





