[發(fā)明專利]一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置有效

申請?zhí)枺?/td>	201811444993.6	申請日：	2018-11-29
公開（公告）號：	CN109614535B	公開（公告）日：	2021-10-08
發(fā)明（設(shè)計）人：	呂婧;辛北軍;張巖;劉建華;胡向旭;馬宏強	申請（專利權(quán)）人：	中電萬維信息技術(shù)有限責(zé)任公司
主分類號：	G06F16/951	分類號：	G06F16/951
代理公司：	深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44248	代理人：	胡吉科
地址：	730000 甘***	國省代碼：	甘肅;62
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 scrapy 框架網(wǎng)絡(luò) 數(shù)據(jù) 采集方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置，所述方法包括：基于一代碼固定的Item動態(tài)類，獲取網(wǎng)絡(luò)采集事件中的采集字段；獲取與每一個所述采集字段對應(yīng)的字段內(nèi)容；存儲所述字段內(nèi)容。本發(fā)明對于任意一個網(wǎng)絡(luò)采集事件，均可以采用一個固定的Item動態(tài)類，獲取網(wǎng)絡(luò)采集事件中的采集字段，而不需要在對于不同的網(wǎng)絡(luò)采集事件去對應(yīng)修改Item類，提高采集字段的獲取效率；且對于任何一個網(wǎng)絡(luò)采集事件，其中的采集字段可以靈活配置，沒有局限性。

技術(shù)領(lǐng)域

本發(fā)明涉及計算機技術(shù)領(lǐng)域，特別是涉及一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置。

背景技術(shù)

Scrapy是一個開源且較為著名的爬蟲框架，可以應(yīng)用在包括數(shù)據(jù)挖掘，信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。其最初是為了頁面抓取(或者網(wǎng)絡(luò)抓取)所設(shè)計的，也可以應(yīng)用在獲取API所返回的數(shù)據(jù)(例如AmazonAssociates Web Services)或者通用的網(wǎng)絡(luò)爬蟲，主要功能是爬取網(wǎng)站數(shù)據(jù)，從非結(jié)構(gòu)性的數(shù)據(jù)源提取結(jié)構(gòu)性數(shù)據(jù)。

Scrapy提供了Item類滿足常用數(shù)據(jù)輸出的需求。Item類可以使用簡單的 class定義語法，其類成員由Field對象聲明而來。Field對象指明了每個字段的元數(shù)據(jù)(metadata)，可以為每個字段指明任何類型的元數(shù)據(jù)。

但是針對不同的采集項目，每次在采集時需要都需要修改Item類來適配具體的采集場景，即在不同的采集場景下，需要對應(yīng)修改Item類代碼才可以適用。這種方式對于采集場景較多，任務(wù)較多時，會產(chǎn)生操作繁瑣，工作效率較低的技術(shù)問題。

發(fā)明內(nèi)容

基于此，有必要針對目前在不同采集場景下需要修改Item類的問題，提供一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置。

一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法，包括：

基于一代碼固定的Item動態(tài)類，獲取網(wǎng)絡(luò)采集事件中的采集字段；

獲取與每一個所述采集字段對應(yīng)的字段內(nèi)容；

存儲所述字段內(nèi)容。

在其中一個實施例中，所述基于一代碼固定的Item類，獲取網(wǎng)絡(luò)采集事件中的采集字段之前，所述方法還包括：

定義一代碼固定的Item動態(tài)類，所述Item動態(tài)類包含一通用的采集字段變量，所述變量指向?qū)?yīng)的采集字段對象。

在其中一個實施例中，所述基于一代碼固定的Item動態(tài)類，獲取網(wǎng)絡(luò)采集事件中的采集字段，具體為：

基于一代碼固定的Item動態(tài)類，循環(huán)增加采集域的數(shù)量，遍歷所述網(wǎng)絡(luò)采集事件以獲取所述采集字段。

在其中一個實施例中，所述獲取與每一個所述采集字段對應(yīng)的字段內(nèi)容之后，所述方法還包括：

將與每一個所述采集字段對應(yīng)的字段內(nèi)容添加至目標數(shù)組中；

遍歷所述目標數(shù)組，將讀取的所述目標數(shù)組中與每一個所述采集字段對應(yīng)的字段內(nèi)容拼接成目標字符串；

所述存儲所述字段內(nèi)容，具體為：

存儲包含所述字段內(nèi)容的所述目標字符串。

在其中一個實施例中，所述將與每一個所述采集字段對應(yīng)的字段內(nèi)容添加至目標數(shù)組中，包括：

采用hxs對象讀取所述網(wǎng)絡(luò)采集事件中每個網(wǎng)站中的頁面信息；

通過hxs對象的xpath方法從所述頁面信息中提取與每個所述采集字段對應(yīng)的字段內(nèi)容；

將提取的與每個所述采集字段對應(yīng)的字段內(nèi)容添加至目標數(shù)組中。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中電萬維信息技術(shù)有限責(zé)任公司，未經(jīng)中電萬維信息技術(shù)有限責(zé)任公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811444993.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】