[發明專利]一種基于Scrapy框架的網絡數據的采集方法及裝置有效
| 申請號: | 201811444993.6 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109614535B | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 呂婧;辛北軍;張巖;劉建華;胡向旭;馬宏強 | 申請(專利權)人: | 中電萬維信息技術有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 730000 甘*** | 國省代碼: | 甘肅;62 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 scrapy 框架 網絡 數據 采集 方法 裝置 | ||
1.一種基于Scrapy框架的網絡數據的采集方法,其特征在于,包括:
基于一代碼固定的Item動態類,獲取網絡采集事件中的采集字段;
獲取與每一個所述采集字段對應的字段內容;
存儲所述字段內容;
所述獲取與每一個所述采集字段對應的字段內容之后,所述方法還包括:
將與每一個所述采集字段對應的字段內容添加至目標數組中;
遍歷所述目標數組,將讀取的所述目標數組中與每一個所述采集字段對應的字段內容拼接成目標字符串;
所述存儲所述字段內容,具體為:
存儲包含所述字段內容的所述目標字符串;
所述將與每一個所述采集字段對應的字段內容添加至目標數組中,包括:
采用hxs對象讀取所述網絡采集事件中每個網站中的頁面信息;
通過hxs對象的xpath方法從所述頁面信息中提取與每個所述采集字段對應的字段內容;將提取的與每個所述采集字段對應的字段內容添加至目標數組中;
所述遍歷所述目標數組,將讀取的所述目標數組中與每一個所述采集字段對應的字段內容拼接成目標字符串,包括:
遍歷所述目標數組,獲取所述目標數組中的與每一個所述采集字段對應的字段內容;
在每一個所述字段內容后添加隔離標識;
將每一個字段內容和對應添加的所述隔離標識拼接形成一個目標字符串。
2.根據權利要求1所述的方法,其特征在于,所述基于一代碼固定的Item類,獲取網絡采集事件中的采集字段之前,所述方法還包括:
定義一代碼固定的Item動態類,所述Item動態類包含一通用的采集字段變量,所述采集字段變量指向對應的采集字段對象。
3.根據權利要求1所述的方法,其特征在于,所述基于一代碼固定的Item動態類,獲取網絡采集事件中的采集字段,具體為:
基于一代碼固定的Item動態類,循環增加采集域的數量,遍歷所述網絡采集事件以獲取所述采集字段。
4.根據權利要求1所述的方法,其特征在于,所述在每一個所述字段內容后添加隔離標識之前,還包括:
對每一個所述字段內容進行預處理,所述預處理至少包括去除所述字段內容中的特殊字符與空白。
5.一種基于Scrapy框架的網絡數據的采集裝置,其特征在于,所述裝置包括:
字段獲取模塊,用于基于一代碼固定的Item動態類,獲取網絡采集事件中的采集字段;
內容獲取模塊,用于獲取與每一個所述采集字段對應的字段內容;
存儲模塊,用于存儲所述字段內容;
所述裝置還包括,定義模塊,用于定義一代碼固定的Item動態類,所述Item動態類包含一通用的采集字段變量,所述采集字段變量指向對應的采集字段對象;
所述字段獲取模塊具體用于:基于一代碼固定的Item動態類,循環增加采集域的數量,遍歷所述網絡采集事件以獲取所述采集字段;
所述裝置還包括,添加模塊,用于將與每一個所述采集字段對應的字段內容添加至目標數組中;
拼接模塊,用于遍歷所述目標數組,將讀取的所述目標數組中與每一個所述采集字段對應的字段內容拼接成目標字符串;
所述存儲模塊具體用于:
存儲包含所述字段內容的所述目標字符串。
6.根據權利要求5所述的裝置,其特征在于,所述添加模塊具體用于:
采用hxs對象讀取所述網絡采集事件中每個網站中的頁面信息;
通過hxs對象的xpath方法從所述頁面信息中提取與每個所述采集字段對應的字段內容;
將提取的與每個所述采集字段對應的字段內容添加至目標數組中。
7.根據權利要求5所述的裝置,其特征在于,所述拼接模塊具體用于:
遍歷所述目標數組,獲取所述目標數組中的與每一個所述采集字段對應的字段內容;
在每一個所述字段內容后添加隔離標識;
將每一個字段內容和對應添加的所述隔離標識拼接形成一個目標字符串。
8.根據權利要求5所述的裝置,其特征在于,所述拼接模塊還用于:
對每一個所述字段內容進行預處理,所述預處理至少包括去除所述字段內容中的特殊字符與空白。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電萬維信息技術有限責任公司,未經中電萬維信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811444993.6/1.html,轉載請聲明來源鉆瓜專利網。





