[發(fā)明專利]數(shù)據(jù)采集系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 202010914439.0 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112035725A | 公開(公告)日: | 2020-12-04 |
| 發(fā)明(設(shè)計)人: | 張學(xué)穎;曹六一;楊飛 | 申請(專利權(quán))人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 張娜;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 采集 系統(tǒng) 方法 | ||
本發(fā)明實施例提供一種數(shù)據(jù)采集系統(tǒng)和方法,該系統(tǒng)包括:爬蟲管理模塊,采集集群模塊和數(shù)據(jù)落地模塊;所述爬蟲管理模塊中部署有多個爬蟲線程,不同爬蟲線程對應(yīng)的數(shù)據(jù)采集方式不同;所述爬蟲管理模塊用于:基于調(diào)度機制,控制相應(yīng)爬蟲線程通過所述采集集群模塊在網(wǎng)頁中采集數(shù)據(jù),并基于濾重機制對采集到的數(shù)據(jù)進行處理,得到有效數(shù)據(jù);所述數(shù)據(jù)落地模塊用于獲取所述有效數(shù)據(jù),并將所述有效數(shù)據(jù)按照預(yù)先確定的落地路徑寫入相應(yīng)的內(nèi)存中。該數(shù)據(jù)采集系統(tǒng)通過統(tǒng)一管理爬蟲線程以及數(shù)據(jù)濾重,大大減少了開發(fā)人員的工作量,提高了數(shù)據(jù)采集效率和精度。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及數(shù)據(jù)采集技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)采集系統(tǒng)和方法。
背景技術(shù)
隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)成為大量信息的載體,其中包含輿情信息、就業(yè)信息、社會事件信息以及各個行業(yè)的信息等等,不同網(wǎng)頁中主要承載的信息也不完全相同,比如,娛樂網(wǎng)站的網(wǎng)頁主要承載輿情信息、醫(yī)療相關(guān)網(wǎng)頁上主要承載醫(yī)藥行業(yè)領(lǐng)域的信息。如何有效在各個網(wǎng)頁中采集這些信息是大數(shù)據(jù)分析的基礎(chǔ)。
目前,網(wǎng)絡(luò)爬蟲是數(shù)據(jù)分析系統(tǒng)中非常重要的部分,網(wǎng)絡(luò)爬蟲負(fù)責(zé)從互聯(lián)網(wǎng)中搜集網(wǎng)頁和采集網(wǎng)頁中的信息,采集到的信息為了后續(xù)的大數(shù)據(jù)分析提供支持,采集到的信息種類和采集速度直接決定整個數(shù)據(jù)分析系統(tǒng)的內(nèi)容豐富程度和數(shù)據(jù)分析的效果。
但是,通用的爬蟲框架在很多個性化網(wǎng)站無法滿足采集開發(fā),如果針對每個個性化網(wǎng)站均單獨開發(fā)采集框架,則需要開發(fā)人員針對每隔個性化網(wǎng)站均開發(fā)調(diào)度、解析、濾重以及落地等多個模塊,隨著個性化網(wǎng)站數(shù)量的增加,開發(fā)人員的工作量也越來越大,從而導(dǎo)致數(shù)據(jù)采集的效率和精度越來越低。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種數(shù)據(jù)采集系統(tǒng)和方法,以克服現(xiàn)有技術(shù)中互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù)采集效率和精度低的技術(shù)問題。
第一方面,本發(fā)明實施例提供一種數(shù)據(jù)采集系統(tǒng),包括:
爬蟲管理模塊,采集集群模塊和數(shù)據(jù)落地模塊;
所述爬蟲管理模塊中部署有多個爬蟲線程,不同爬蟲線程對應(yīng)的數(shù)據(jù)采集方式不同;
所述爬蟲管理模塊用于:基于調(diào)度機制,控制相應(yīng)爬蟲線程通過所述采集集群模塊在網(wǎng)頁中采集數(shù)據(jù),并基于濾重機制對采集到的數(shù)據(jù)進行處理,得到有效數(shù)據(jù);
所述數(shù)據(jù)落地模塊用于獲取所述有效數(shù)據(jù),并將所述有效數(shù)據(jù)按照預(yù)先確定的落地路徑寫入相應(yīng)的內(nèi)存中。
可選的,所述爬蟲管理模塊包括調(diào)度單元,所述調(diào)度單元用于:
控制相應(yīng)爬蟲線程創(chuàng)建對應(yīng)的采集任務(wù),并將所述采集任務(wù)發(fā)送至所述采集集群模塊,以使所述采集集群模塊根據(jù)所述采集任務(wù)采集相應(yīng)的網(wǎng)站中的列表頁和內(nèi)容頁;
解析所述列表頁和內(nèi)容頁,得到衍生任務(wù)或?qū)懭胛募鲅苌蝿?wù)包括列表頁任務(wù)和內(nèi)容頁任務(wù)。
可選的,所述爬蟲管理模塊還包括濾重單元,所述濾重單元用于:
根據(jù)每個列表頁和內(nèi)容頁對應(yīng)的統(tǒng)一資源定位符URL的哈希值,對所述列表頁和內(nèi)容頁進行濾重。
可選的,所述濾重單元還用于:
根據(jù)預(yù)先設(shè)定的濾重時間點,對所述列表頁和內(nèi)容頁進行濾重操作。
可選的,所述濾重單元還用于:
根據(jù)預(yù)先設(shè)定的有效時間范圍,對所述有效時間范圍內(nèi)的列表頁和內(nèi)容頁進行濾重操作。
可選的,所述爬蟲管理模塊還包括檢查單元,所述檢查單元用于:
對所述寫入文件中包含的各個字段進行檢查,將符合預(yù)設(shè)條件的字段作為有效數(shù)據(jù)。
可選的,所述數(shù)據(jù)落地模塊具體用于:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經(jīng)北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010914439.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





