[發(fā)明專利]一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置有效
| 申請?zhí)枺?/td> | 201811444993.6 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109614535B | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計)人: | 呂婧;辛北軍;張巖;劉建華;胡向旭;馬宏強 | 申請(專利權(quán))人: | 中電萬維信息技術(shù)有限責(zé)任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 730000 甘*** | 國省代碼: | 甘肅;62 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 scrapy 框架 網(wǎng)絡(luò) 數(shù)據(jù) 采集 方法 裝置 | ||
本發(fā)明涉及一基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置,所述方法包括:基于一代碼固定的Item動態(tài)類,獲取網(wǎng)絡(luò)采集事件中的采集字段;獲取與每一個所述采集字段對應(yīng)的字段內(nèi)容;存儲所述字段內(nèi)容。本發(fā)明對于任意一個網(wǎng)絡(luò)采集事件,均可以采用一個固定的Item動態(tài)類,獲取網(wǎng)絡(luò)采集事件中的采集字段,而不需要在對于不同的網(wǎng)絡(luò)采集事件去對應(yīng)修改Item類,提高采集字段的獲取效率;且對于任何一個網(wǎng)絡(luò)采集事件,其中的采集字段可以靈活配置,沒有局限性。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別是涉及一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置。
背景技術(shù)
Scrapy是一個開源且較為著名的爬蟲框架,可以應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。其最初是為了頁面抓取(或者網(wǎng)絡(luò)抓取)所設(shè)計的,也可以應(yīng)用在獲取API所返回的數(shù)據(jù)(例如AmazonAssociates Web Services)或者通用的網(wǎng)絡(luò)爬蟲,主要功能是爬取網(wǎng)站數(shù)據(jù),從非結(jié)構(gòu)性的數(shù)據(jù)源提取結(jié)構(gòu)性數(shù)據(jù)。
Scrapy提供了Item類滿足常用數(shù)據(jù)輸出的需求。Item類可以使用簡單的 class定義語法,其類成員由Field對象聲明而來。Field對象指明了每個字段的元數(shù)據(jù)(metadata),可以為每個字段指明任何類型的元數(shù)據(jù)。
但是針對不同的采集項目,每次在采集時需要都需要修改Item類來適配具體的采集場景,即在不同的采集場景下,需要對應(yīng)修改Item類代碼才可以適用。這種方式對于采集場景較多,任務(wù)較多時,會產(chǎn)生操作繁瑣,工作效率較低的技術(shù)問題。
發(fā)明內(nèi)容
基于此,有必要針對目前在不同采集場景下需要修改Item類的問題,提供一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置。
一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法,包括:
基于一代碼固定的Item動態(tài)類,獲取網(wǎng)絡(luò)采集事件中的采集字段;
獲取與每一個所述采集字段對應(yīng)的字段內(nèi)容;
存儲所述字段內(nèi)容。
在其中一個實施例中,所述基于一代碼固定的Item類,獲取網(wǎng)絡(luò)采集事件中的采集字段之前,所述方法還包括:
定義一代碼固定的Item動態(tài)類,所述Item動態(tài)類包含一通用的采集字段變量,所述變量指向?qū)?yīng)的采集字段對象。
在其中一個實施例中,所述基于一代碼固定的Item動態(tài)類,獲取網(wǎng)絡(luò)采集事件中的采集字段,具體為:
基于一代碼固定的Item動態(tài)類,循環(huán)增加采集域的數(shù)量,遍歷所述網(wǎng)絡(luò)采集事件以獲取所述采集字段。
在其中一個實施例中,所述獲取與每一個所述采集字段對應(yīng)的字段內(nèi)容之后,所述方法還包括:
將與每一個所述采集字段對應(yīng)的字段內(nèi)容添加至目標數(shù)組中;
遍歷所述目標數(shù)組,將讀取的所述目標數(shù)組中與每一個所述采集字段對應(yīng)的字段內(nèi)容拼接成目標字符串;
所述存儲所述字段內(nèi)容,具體為:
存儲包含所述字段內(nèi)容的所述目標字符串。
在其中一個實施例中,所述將與每一個所述采集字段對應(yīng)的字段內(nèi)容添加至目標數(shù)組中,包括:
采用hxs對象讀取所述網(wǎng)絡(luò)采集事件中每個網(wǎng)站中的頁面信息;
通過hxs對象的xpath方法從所述頁面信息中提取與每個所述采集字段對應(yīng)的字段內(nèi)容;
將提取的與每個所述采集字段對應(yīng)的字段內(nèi)容添加至目標數(shù)組中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中電萬維信息技術(shù)有限責(zé)任公司,未經(jīng)中電萬維信息技術(shù)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811444993.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種自動獲取xpath生成爬蟲腳本的方法及系統(tǒng)
- 一種解決Web證書認證的爬蟲方法
- 一種基于Scrapy框架的網(wǎng)絡(luò)數(shù)據(jù)的采集方法及裝置
- 一種基于Scrapy的數(shù)據(jù)采集方法
- 基于Scrapy的數(shù)據(jù)爬取方法、終端設(shè)備及計算機可讀存儲介質(zhì)
- 一種海外服務(wù)器非結(jié)構(gòu)數(shù)據(jù)采集系統(tǒng)及方法
- 基于Scrapy的網(wǎng)站URL爬取方法
- 一種基于Scrapy-Redis的分布式網(wǎng)絡(luò)爬蟲優(yōu)化方法
- 分布式爬蟲的集中管理系統(tǒng)
- 一種基于消息中間件的數(shù)據(jù)采集系統(tǒng)、方法及裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





