[發明專利]一種基于Scrapy的數據采集方法有效
| 申請號: | 201910040521.2 | 申請日: | 2019-01-16 |
| 公開(公告)號: | CN109766488B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 趙蕾 | 申請(專利權)人: | 南京工業職業技術學院 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953 |
| 代理公司: | 南京業騰知識產權代理事務所(特殊普通合伙) 32321 | 代理人: | 董存壁 |
| 地址: | 210023 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 scrapy 數據 采集 方法 | ||
本發明涉及一種基于Scrapy的數據采集方法,該方法首先確定需要采集的大數據的來源,其次定性進行數據的獲取,然后將樣本數據定量,最后基于Scrapy技術進行數據的采集。本發明實現了對海量數據進行采集,使得數據的采集條理清晰,在采集的數據量龐大時不混亂。
技術領域
本發明涉及一種基于Scrapy的數據采集方法,屬于數據采集方法技術領域。
背景技術
近年來,隨著中國社會的不斷發展,社會生產其規模不斷擴大,特大互聯電網開始形成,系統運行呈現緊密化特征,生產運行管理面臨著更多、更復雜的挑戰,急需建設更加可靠、穩定、安全的生產系統。數據采集作為社會生產發展的重要組成部分,對社會生產安全、穩定、高效運行發揮著越來越重要的支撐作用。大數據是國家新型戰略資源,引來了國內外越來越多的關注。Auther在2011年提出第二經濟的概念,由處理器、傳感器、執行器以及與其相關的經濟活動將構成人們熟知的物理經濟(第一經濟)之外的第二經濟(不是虛擬經濟),而大數據是第二經濟(second economy)的核心內涵和關鍵支撐。數據采集服務必須適應互聯大電網多應用、大數據量、高實時性和高安全性的特點,優化設計并融合更為先進的技術手段以支撐更大范圍內調控業務的統一協調和各類數據的全景監視與分析。傳統的數據采集功能主要面向單個應用,存在功能重復、維護復雜、信息交換共享不足等問題;同時,隨著系統規模的不斷擴大和數據采集表容量的猛增,導致運行維護不便和采集處理能力降低。為此,需要設計相應的技術方案給予解決。
發明內容
本發明所要解決的技術問題是提供一種基于Scrapy的數據采集方法,該方法首先確定需要采集的大數據的來源,其次定性進行數據的獲取,然后將樣本數據定量,最后基于Scrapy技術進行數據的采集,滿足了實際應用的要求。
為解決上述問題,本發明所采取的技術方案如下:
一種基于Scrapy的數據采集方法,包括以下步驟:
步驟1:確定需要采集的大數據的來源
從數據來源來看,社交網絡、移動互聯網、信息化企業都是海量數據的制造者,按照產生數據的領域進行劃分,可分為網絡數據、物理世界數據、科研試驗數據三類;其中,網絡數據是指在網絡空間中進行溝通、交流、購物、學習、瀏覽網站等所產生各種數據;根據用戶行為,又可細分為社交行為數據,以SNS網絡為基礎;購物行為數據,以電子商務平臺為基礎;搜索行為數據,以搜索引擎為基礎等;物理世界數據是指通過智能設備感知和表示獲得的數據;一種是基于大型裝備的數據采集,如:飛機、汽車、大型農機裝備等;另一種是基于傳感器的分散數據采集,比如溫度、濕度、壓力、聲音、圖像、光、磁、電壓等數據;
科研試驗數據指在試驗過程中產生的海量的、用于科學分析的數據;隨著科研信息化的發展,傳統科研活動逐漸向以數據為中心科學研究轉變,尤其在基因組學、蛋白組學、天體物理學、氣象學和腦科學等領域,會產生海量數據;
步驟2:定性獲取需采集的數據
可以將不含有數字的信息稱之為定性數據,一般不依靠工具設備,只給出需采集的數據的建議;典型的形式即調研考察,通過與被采集用戶進行交流等,獲取徐采集數據的大致信息,獲得調研對象的概貌了解;
步驟3:將所要采集的樣本數據定量
樣本數據已屬于定量數據采集階段,借助于數據采集工具,采集某一種或幾種數據,指導生產或決策,樣本數據采集階段的主要特征是人工參與,借助設備來完成數據的采集工作;
步驟4:基于Scrapy技術進行數據的采集
Scrapy是一種基于網絡爬蟲的數據采集方法,是由Twisted(一種基于Python的事件驅動的網絡架構)改寫的、抽取結構化數據的應用框架,同樣可以在數據挖掘、信息處理和歷史歸檔等方面應用;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工業職業技術學院,未經南京工業職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910040521.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





