[發(fā)明專利]一種網絡數據采集的方法及其系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010790334.9 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN111953766A | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設計)人: | 劉德建;柳旭輝;張延鋒;鄭成龍;陳宏展 | 申請(專利權)人: | 福建省天奕網絡科技有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;G06F16/951 |
| 代理公司: | 福州旭辰知識產權代理事務所(普通合伙) 35233 | 代理人: | 程勇 |
| 地址: | 350212 福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 數據 采集 方法 及其 系統(tǒng) | ||
本發(fā)明提供了一種網絡數據采集的方法,所述方法為:步驟S1、定義一配置文件,該配置文件內設置獲取網站數據的參數,步驟S2、讀取配置文件并采集網絡數據,即根據不同網站,自定義配置瀏覽器UA標識,通過瀏覽器UA標識進行網絡爬蟲方式、定時多線程采集數據方式、多層級采集數據方式、保存瀏覽器cookie采集方式,對網站的網絡數據進行采集;步驟S3、進行轉換網頁特殊字符,即從網絡上采集到的網絡數據,進行數據格式化處理,即使用字符串替換、正則表達式替換或者匹配、去除空格、添加前綴或后綴、日期時間格式化、HTML轉碼的多種方式進行處理;步驟S4、保存采集結果,將數據導出到本地形成文件或者保存到數據庫;本發(fā)明提供了采集效率。
技術領域
本發(fā)明涉及網絡通訊技術領域,特別是一種網絡數據采集的方法及其系統(tǒng)。
背景技術
網絡數據采集是指利用互聯網搜索引擎技術實現有針對性、行業(yè)性、精準性的數據抓取,并按照一定規(guī)則和篩選標準進行數據歸類,并形成數據庫文件的一個過程。網絡數據采集主要是通過網羅互聯網海量數據,借助科學建模,傾聽消費者的心聲,洞察市場機會,了解競品動態(tài),為公司的媒介投入、渠道管理、品牌建設、產品創(chuàng)新等多種經營決策提供指導。但是目前網絡上的網站有著不同的格式,需要在各種不同的網站內容中找出共性,并且許多網站會設置多種障礙方式不方便數據采集。
發(fā)明內容
為克服上述問題,本發(fā)明的目的是提供一種網絡數據采集的方法,能解決不同網站的同字段數據采集,提高了工作效率。
本發(fā)明采用以下方案實現:一種網絡數據采集的方法,所述方法包括如下步驟:
步驟S1、定義一配置文件,該配置文件內設置獲取網站數據的參數,該配置文件能用于不同網站的同字段數據采集;
步驟S2、讀取配置文件并采集網絡數據,即根據不同網站,自定義配置瀏覽器UA標識,通過瀏覽器UA標識進行網絡爬蟲方式、定時多線程采集數據方式、多層級采集數據方式、保存瀏覽器cookie采集方式,對網站的網絡數據進行采集;
步驟S3、進行轉換網頁特殊字符,即從網絡上采集到的網絡數據,進行數據格式化處理,即使用字符串替換、正則表達式替換或者匹配、去除空格、添加前綴或后綴、日期時間格式化、HTML轉碼的多種方式進行處理;
步驟S4、保存采集結果,將數據導出到本地形成文件或者保存到數據庫。
進一步的,所述獲取網站數據的參數包括:當前API地址、當前API地址類型、網站名、網站ID、網站字符集、每頁采集的子項數、以及當前URL設置的最大頁數。
進一步的,所述定時多線程采集數據方式為:采取定時控制采集,進行單次采集的定時設置,或者預設某一天或者是每周每月的定時采集,根據需要對選擇時間進行重新組合,靈活調配采集任務;對于采集的實時數據,如果數據數量眾多,則應該同時開多個線程,做好線程同步,平均分配任務,將數據都下載到本地,做好數據策略,保證時效性和穩(wěn)定性。
進一步的,所述多層級采集數據方式為:對于多級層級結構的數據,需要進行不限制層級采集,設置程序內存標識符,在每一層級都設置具體的標識符,即第一層級標識符設置為First,第二層級設置為Second,第三層級設置為Third,在不同層級切換時帶上對應的標識符進行處理,通過程序向網絡服務器發(fā)送請求獲取網絡數據資源時,通過設定好的標識符來確定是哪一層級的數據,將獲取到的網絡數據從網絡流讀取出來,保存在對應層級的數據列表或者數據庫中。
進一步的,所述網絡爬蟲方式能準確批量識別各種網頁元素,支持不同網頁結構的復雜網站數據采集;所述保存瀏覽器cookie采集方式:對于需要進行登錄的網站,只需配置目標網站的賬號密碼,即能采集到登錄后的數據,并且采集Cookie,在登錄網站之后,自動記住Cookie,免去重復輸入密碼的問題。
進一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建省天奕網絡科技有限公司,未經福建省天奕網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010790334.9/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





