[發(fā)明專利]一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法及其系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202010790334.9 | 申請(qǐng)日: | 2020-08-07 |
| 公開(公告)號(hào): | CN111953766A | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計(jì))人: | 劉德建;柳旭輝;張延鋒;鄭成龍;陳宏展 | 申請(qǐng)(專利權(quán))人: | 福建省天奕網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;G06F16/951 |
| 代理公司: | 福州旭辰知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35233 | 代理人: | 程勇 |
| 地址: | 350212 福*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 數(shù)據(jù) 采集 方法 及其 系統(tǒng) | ||
1.一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法,其特征在于:所述方法包括如下步驟:
步驟S1、定義一配置文件,該配置文件內(nèi)設(shè)置獲取網(wǎng)站數(shù)據(jù)的參數(shù),該配置文件能用于不同網(wǎng)站的同字段數(shù)據(jù)采集;
步驟S2、讀取配置文件并采集網(wǎng)絡(luò)數(shù)據(jù),即根據(jù)不同網(wǎng)站,自定義配置瀏覽器UA標(biāo)識(shí),通過瀏覽器UA標(biāo)識(shí)進(jìn)行網(wǎng)絡(luò)爬蟲方式、定時(shí)多線程采集數(shù)據(jù)方式、多層級(jí)采集數(shù)據(jù)方式、保存瀏覽器cookie采集方式,對(duì)網(wǎng)站的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集;
步驟S3、進(jìn)行轉(zhuǎn)換網(wǎng)頁特殊字符,即從網(wǎng)絡(luò)上采集到的網(wǎng)絡(luò)數(shù)據(jù),進(jìn)行數(shù)據(jù)格式化處理,即使用字符串替換、正則表達(dá)式替換或者匹配、去除空格、添加前綴或后綴、日期時(shí)間格式化、HTML轉(zhuǎn)碼的多種方式進(jìn)行處理;
步驟S4、保存采集結(jié)果,將數(shù)據(jù)導(dǎo)出到本地形成文件或者保存到數(shù)據(jù)庫(kù)。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法,其特征在于:所述獲取網(wǎng)站數(shù)據(jù)的參數(shù)包括:當(dāng)前API地址、當(dāng)前API地址類型、網(wǎng)站名、網(wǎng)站ID、網(wǎng)站字符集、每頁采集的子項(xiàng)數(shù)、以及當(dāng)前URL設(shè)置的最大頁數(shù)。
3.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法,其特征在于:所述定時(shí)多線程采集數(shù)據(jù)方式為:采取定時(shí)控制采集,進(jìn)行單次采集的定時(shí)設(shè)置,或者預(yù)設(shè)某一天或者是每周每月的定時(shí)采集,根據(jù)需要對(duì)選擇時(shí)間進(jìn)行重新組合,靈活調(diào)配采集任務(wù);對(duì)于采集的實(shí)時(shí)數(shù)據(jù),如果數(shù)據(jù)數(shù)量眾多,則應(yīng)該同時(shí)開多個(gè)線程,做好線程同步,平均分配任務(wù),將數(shù)據(jù)都下載到本地,做好數(shù)據(jù)策略,保證時(shí)效性和穩(wěn)定性。
4.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法,其特征在于:所述多層級(jí)采集數(shù)據(jù)方式為:對(duì)于多級(jí)層級(jí)結(jié)構(gòu)的數(shù)據(jù),需要進(jìn)行不限制層級(jí)采集,設(shè)置程序內(nèi)存標(biāo)識(shí)符,在每一層級(jí)都設(shè)置具體的標(biāo)識(shí)符,即第一層級(jí)標(biāo)識(shí)符設(shè)置為First,第二層級(jí)設(shè)置為Second,第三層級(jí)設(shè)置為Third,在不同層級(jí)切換時(shí)帶上對(duì)應(yīng)的標(biāo)識(shí)符進(jìn)行處理,通過程序向網(wǎng)絡(luò)服務(wù)器發(fā)送請(qǐng)求獲取網(wǎng)絡(luò)數(shù)據(jù)資源時(shí),通過設(shè)定好的標(biāo)識(shí)符來確定是哪一層級(jí)的數(shù)據(jù),將獲取到的網(wǎng)絡(luò)數(shù)據(jù)從網(wǎng)絡(luò)流讀取出來,保存在對(duì)應(yīng)層級(jí)的數(shù)據(jù)列表或者數(shù)據(jù)庫(kù)中。
5.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法,其特征在于:所述網(wǎng)絡(luò)爬蟲方式能準(zhǔn)確批量識(shí)別各種網(wǎng)頁元素,支持不同網(wǎng)頁結(jié)構(gòu)的復(fù)雜網(wǎng)站數(shù)據(jù)采集;所述保存瀏覽器cookie采集方式:對(duì)于需要進(jìn)行登錄的網(wǎng)站,只需配置目標(biāo)網(wǎng)站的賬號(hào)密碼,即能采集到登錄后的數(shù)據(jù),并且采集Cookie,在登錄網(wǎng)站之后,自動(dòng)記住Cookie,免去重復(fù)輸入密碼的問題。
6.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)數(shù)據(jù)采集的方法,其特征在于:所述文件支持TXT、EXCEL、CSV和HTML文件格式。
7.一種網(wǎng)絡(luò)數(shù)據(jù)采集的系統(tǒng),其特征在于:所述系統(tǒng)包括:配置模塊、數(shù)據(jù)采集模塊、數(shù)據(jù)格式處理模塊、以及結(jié)果存儲(chǔ)模塊;
所述配置模塊,用于定義一配置文件,該配置文件內(nèi)設(shè)置獲取網(wǎng)站數(shù)據(jù)的參數(shù),該配置文件能用于不同網(wǎng)站的同字段數(shù)據(jù)采集;
所述數(shù)據(jù)采集模塊,用于讀取配置文件并采集網(wǎng)絡(luò)數(shù)據(jù),即根據(jù)不同網(wǎng)站,自定義配置瀏覽器UA標(biāo)識(shí),通過瀏覽器UA標(biāo)識(shí)進(jìn)行網(wǎng)絡(luò)爬蟲方式、定時(shí)多線程采集數(shù)據(jù)方式、多層級(jí)采集數(shù)據(jù)方式、保存瀏覽器cookie采集方式,對(duì)網(wǎng)站的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集;
所述數(shù)據(jù)格式處理模塊,用于進(jìn)行轉(zhuǎn)換網(wǎng)頁特殊字符,即從網(wǎng)絡(luò)上采集到的網(wǎng)絡(luò)數(shù)據(jù),進(jìn)行數(shù)據(jù)格式化處理,即使用字符串替換、正則表達(dá)式替換或者匹配、去除空格、添加前綴或后綴、日期時(shí)間格式化、HTML轉(zhuǎn)碼的多種方式進(jìn)行處理;
所述結(jié)果存儲(chǔ)模塊,用于保存采集結(jié)果,將數(shù)據(jù)導(dǎo)出到本地形成文件或者保存到數(shù)據(jù)庫(kù)。
8.根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)數(shù)據(jù)采集的系統(tǒng),其特征在于:所述獲取網(wǎng)站數(shù)據(jù)的參數(shù)包括:當(dāng)前API地址、當(dāng)前API地址類型、網(wǎng)站名、網(wǎng)站ID、網(wǎng)站字符集、每頁采集的子項(xiàng)數(shù)、以及當(dāng)前URL設(shè)置的最大頁數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建省天奕網(wǎng)絡(luò)科技有限公司,未經(jīng)福建省天奕網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010790334.9/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





