[發(fā)明專利]一種高速精準獲取數(shù)據(jù)的方法和裝置有效
| 申請?zhí)枺?/td> | 202010104603.1 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111324797B | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計)人: | 李振;劉恒;魏華;徐元義;馮一;杜昭慧 | 申請(專利權(quán))人: | 民生科技有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F18/2411;G06F40/216;G06F40/289;G06F40/30;G06N20/10 |
| 代理公司: | 北京金智普華知識產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 101300 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 高速 精準 獲取 數(shù)據(jù) 方法 裝置 | ||
本發(fā)明公開了一種高速精準獲取數(shù)據(jù)的方法和裝置,屬于數(shù)據(jù)處理領(lǐng)域。該方法包括:根據(jù)需求,生成URL請求表;對URL請求表中的URL請求以及搜索引擎中提取的URL請求進行調(diào)度與過濾;對于URL請求時出現(xiàn)要求驗證碼驗證頁面,對待識別的驗證碼進行分類并識別后,進入下一步驟;未出現(xiàn)驗證驗證頁面,直接進入下一步驟;對網(wǎng)頁內(nèi)容進行爬取;創(chuàng)建數(shù)據(jù)提取表達式,應(yīng)用于后續(xù)網(wǎng)頁的內(nèi)容提取工作。本發(fā)明技術(shù)方案通過驗證碼快速識別、內(nèi)容提取表達式自動生成、智能多線程池抓取三大技術(shù)大幅提高了爬蟲自動化程度與爬取效率。即減少了人為參與爬取工作的頻率又保證了爬蟲的可靠性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種高速精準獲取數(shù)據(jù)的方法和裝置。
背景技術(shù)
近年以來,互聯(lián)網(wǎng)發(fā)展速度迅猛,web的信息量爆炸式增長。我們已經(jīng)進入互聯(lián)網(wǎng)大數(shù)據(jù)的新時代。同時,大數(shù)據(jù)時代也給傳統(tǒng)的搜索引擎帶來了挑戰(zhàn),如何快速、準確的抓取各網(wǎng)站的數(shù)據(jù)信息已經(jīng)成為了搜索引擎亟須解決的問題。
網(wǎng)絡(luò)爬蟲是自動抓取網(wǎng)頁信息并提取其內(nèi)容的程序,是搜索引擎的重要組成部分。提高網(wǎng)絡(luò)爬蟲系統(tǒng)的抓取效率與準確率是提升搜索引擎能力的最為關(guān)鍵的部分。
目前針對提升爬蟲效率的方法主要由兩方面:1、主題爬蟲類,通過某行業(yè)構(gòu)建的專屬詞向量,在爬蟲爬取數(shù)據(jù)過程中,將所爬取的網(wǎng)絡(luò)資源帶入詞向量進行相似度分析,過濾掉相似度較低的資源,以達到縮小抓取范圍,提高爬蟲抓取準確度。2、分布式爬蟲類,通過提高硬件水平,將傳統(tǒng)的一臺電腦執(zhí)行一個爬取任務(wù)改變?yōu)槎嗯_電腦共同完成一項爬取任務(wù),隨著硬件數(shù)量的增加,爬蟲效率高速增長。
然而,目前很少有關(guān)于在提高爬蟲自動化程度上來提高爬蟲效率的文章。我們知道,現(xiàn)在很多網(wǎng)站處于信息保護的目的,會設(shè)置各種難度較高的驗證碼以阻止爬蟲抓取網(wǎng)站數(shù)據(jù),不得不靠人工干擾來維持爬蟲的正常進行,很大程度的降低了爬蟲的爬取效率。并且在數(shù)據(jù)提取過程中,需要對不同的網(wǎng)址進行網(wǎng)頁結(jié)構(gòu)分析,以構(gòu)造出能夠準確提取所要信息的匹配表達式,這個過程需要人工介入,耗費較長時間,容易出現(xiàn)信息提出錯誤等人為原因造成的不良影響。
本文正是在提升爬蟲自動化程度以及爬取速度兩個方面進行研究,開發(fā)出了一套高速高可靠獲取數(shù)據(jù)的系統(tǒng)。主要基于三個子模塊:驗證碼識別模塊、內(nèi)容提取訓(xùn)練模塊、主題篩選模塊、線程池抓取模塊。
發(fā)明內(nèi)容
為了實現(xiàn)以上目的,本發(fā)明提供了一種基于驗證碼快速識別、內(nèi)容提取表達式自動生成、智能多線程池等技術(shù)的高速精準獲取數(shù)據(jù)的方法和系統(tǒng),提高爬蟲的爬取效率。
根據(jù)本發(fā)明的第一方面,提供一種高速精準獲取數(shù)據(jù)的方法,包括:
步驟1:根據(jù)需求,生成URL請求表;
步驟2:對URL請求表中的URL請求以及搜索引擎中提取的URL請求進行調(diào)度與過濾;
步驟3:對于URL請求時出現(xiàn)要求驗證碼驗證頁面,使用驗證碼識別模塊處理后,進入下一步驟;未出現(xiàn)驗證驗證環(huán)節(jié)頁面,直接進入下一步驟;
步驟4:由爬行模塊進行網(wǎng)頁的爬取;
步驟5:創(chuàng)建數(shù)據(jù)提取表達式,應(yīng)用于后續(xù)網(wǎng)頁的內(nèi)容提取工作。
進一步的,所述步驟1中,所述URL請求表的形式為“搜索引擎域名+主題關(guān)鍵詞+搜索結(jié)果起始頁”。
進一步的,所述步驟2具體包括:
步驟21:將URL請求表中的URL請求以及搜索引擎中提取的URL請求放入公共隊列schedulerQueue中;
步驟22:通過MD5加密算法對URL請求進行16位MD5壓縮;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于民生科技有限責任公司,未經(jīng)民生科技有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010104603.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





