[發(fā)明專利]一種高速精準獲取數(shù)據(jù)的方法和裝置有效

申請?zhí)枺?/td>	202010104603.1	申請日：	2020-02-20
公開（公告）號：	CN111324797B	公開（公告）日：	2023-08-11
發(fā)明（設(shè)計）人：	李振;劉恒;魏華;徐元義;馮一;杜昭慧	申請（專利權(quán)）人：	民生科技有限責任公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F16/955;G06F18/2411;G06F40/216;G06F40/289;G06F40/30;G06N20/10
代理公司：	北京金智普華知識產(chǎn)權(quán)代理有限公司 11401	代理人：	巴曉艷
地址：	101300 北***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種高速精準獲取數(shù)據(jù) 方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種高速精準獲取數(shù)據(jù)的方法和裝置，屬于數(shù)據(jù)處理領(lǐng)域。該方法包括：根據(jù)需求，生成URL請求表；對URL請求表中的URL請求以及搜索引擎中提取的URL請求進行調(diào)度與過濾；對于URL請求時出現(xiàn)要求驗證碼驗證頁面，對待識別的驗證碼進行分類并識別后，進入下一步驟；未出現(xiàn)驗證驗證頁面，直接進入下一步驟；對網(wǎng)頁內(nèi)容進行爬取；創(chuàng)建數(shù)據(jù)提取表達式，應(yīng)用于后續(xù)網(wǎng)頁的內(nèi)容提取工作。本發(fā)明技術(shù)方案通過驗證碼快速識別、內(nèi)容提取表達式自動生成、智能多線程池抓取三大技術(shù)大幅提高了爬蟲自動化程度與爬取效率。即減少了人為參與爬取工作的頻率又保證了爬蟲的可靠性。

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域，具體涉及一種高速精準獲取數(shù)據(jù)的方法和裝置。

背景技術(shù)

近年以來，互聯(lián)網(wǎng)發(fā)展速度迅猛，web的信息量爆炸式增長。我們已經(jīng)進入互聯(lián)網(wǎng)大數(shù)據(jù)的新時代。同時，大數(shù)據(jù)時代也給傳統(tǒng)的搜索引擎帶來了挑戰(zhàn)，如何快速、準確的抓取各網(wǎng)站的數(shù)據(jù)信息已經(jīng)成為了搜索引擎亟須解決的問題。

網(wǎng)絡(luò)爬蟲是自動抓取網(wǎng)頁信息并提取其內(nèi)容的程序，是搜索引擎的重要組成部分。提高網(wǎng)絡(luò)爬蟲系統(tǒng)的抓取效率與準確率是提升搜索引擎能力的最為關(guān)鍵的部分。

目前針對提升爬蟲效率的方法主要由兩方面：1、主題爬蟲類，通過某行業(yè)構(gòu)建的專屬詞向量，在爬蟲爬取數(shù)據(jù)過程中，將所爬取的網(wǎng)絡(luò)資源帶入詞向量進行相似度分析，過濾掉相似度較低的資源，以達到縮小抓取范圍，提高爬蟲抓取準確度。2、分布式爬蟲類，通過提高硬件水平，將傳統(tǒng)的一臺電腦執(zhí)行一個爬取任務(wù)改變?yōu)槎嗯_電腦共同完成一項爬取任務(wù)，隨著硬件數(shù)量的增加，爬蟲效率高速增長。

然而，目前很少有關(guān)于在提高爬蟲自動化程度上來提高爬蟲效率的文章。我們知道，現(xiàn)在很多網(wǎng)站處于信息保護的目的，會設(shè)置各種難度較高的驗證碼以阻止爬蟲抓取網(wǎng)站數(shù)據(jù)，不得不靠人工干擾來維持爬蟲的正常進行，很大程度的降低了爬蟲的爬取效率。并且在數(shù)據(jù)提取過程中，需要對不同的網(wǎng)址進行網(wǎng)頁結(jié)構(gòu)分析，以構(gòu)造出能夠準確提取所要信息的匹配表達式，這個過程需要人工介入，耗費較長時間，容易出現(xiàn)信息提出錯誤等人為原因造成的不良影響。

本文正是在提升爬蟲自動化程度以及爬取速度兩個方面進行研究，開發(fā)出了一套高速高可靠獲取數(shù)據(jù)的系統(tǒng)。主要基于三個子模塊：驗證碼識別模塊、內(nèi)容提取訓(xùn)練模塊、主題篩選模塊、線程池抓取模塊。

發(fā)明內(nèi)容

為了實現(xiàn)以上目的，本發(fā)明提供了一種基于驗證碼快速識別、內(nèi)容提取表達式自動生成、智能多線程池等技術(shù)的高速精準獲取數(shù)據(jù)的方法和系統(tǒng)，提高爬蟲的爬取效率。

根據(jù)本發(fā)明的第一方面，提供一種高速精準獲取數(shù)據(jù)的方法，包括：

步驟1：根據(jù)需求，生成URL請求表；

步驟2：對URL請求表中的URL請求以及搜索引擎中提取的URL請求進行調(diào)度與過濾；

步驟3：對于URL請求時出現(xiàn)要求驗證碼驗證頁面，使用驗證碼識別模塊處理后，進入下一步驟；未出現(xiàn)驗證驗證環(huán)節(jié)頁面，直接進入下一步驟；

步驟4：由爬行模塊進行網(wǎng)頁的爬取；

步驟5：創(chuàng)建數(shù)據(jù)提取表達式，應(yīng)用于后續(xù)網(wǎng)頁的內(nèi)容提取工作。

進一步的，所述步驟1中，所述URL請求表的形式為“搜索引擎域名+主題關(guān)鍵詞+搜索結(jié)果起始頁”。

進一步的，所述步驟2具體包括：

步驟21：將URL請求表中的URL請求以及搜索引擎中提取的URL請求放入公共隊列schedulerQueue中；

步驟22：通過MD5加密算法對URL請求進行16位MD5壓縮；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于民生科技有限責任公司，未經(jīng)民生科技有限責任公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010104603.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種考慮增材制造打印方向的自支撐結(jié)構(gòu)優(yōu)化設(shè)計方法
下一篇：剪切線料尾控制裝置及方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】