[發(fā)明專利]定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010596000.8 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111723268A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 邢榮;李一峰 | 申請(專利權(quán))人: | 浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/957;G06F16/958 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 214029 江蘇省無錫市濱*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 定向 定量 互聯(lián)網(wǎng) 數(shù)據(jù) 采集 方法 系統(tǒng) | ||
本發(fā)明公開了一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng),屬于大數(shù)據(jù)應(yīng)用與分析領(lǐng)域,本發(fā)明要解決的技術(shù)問題為如何避免因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采,采用的技術(shù)方案為:該方法是通過自定義的數(shù)據(jù)顯示上限和偏移值對網(wǎng)站發(fā)送檢索請求,得到相關(guān)聯(lián)的定制化檢索結(jié)果,經(jīng)由一次或少次請求遍歷獲取全量數(shù)據(jù),再將得到檢索結(jié)果合并后做結(jié)構(gòu)化處理,保存入庫達(dá)到數(shù)據(jù)采集的目的。該系統(tǒng)包括默認(rèn)參數(shù)獲取模塊、參數(shù)自定義模塊、測試請求發(fā)送模塊、全量數(shù)據(jù)獲取模塊及數(shù)據(jù)處理入庫模塊。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)應(yīng)用與分析領(lǐng)域,特別涉及數(shù)據(jù)挖掘領(lǐng)域的數(shù)據(jù)采集方法和網(wǎng)絡(luò)爬蟲技術(shù),具體地說是一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng)。
背景技術(shù)
現(xiàn)在的社會是一個(gè)高速發(fā)展的社會,隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,人們愈加認(rèn)識到數(shù)據(jù)的重要性,數(shù)據(jù)這一概念已經(jīng)引起了各行業(yè)從業(yè)者與用戶的廣泛關(guān)注。對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。而隨著政府信息公開與企業(yè)數(shù)字化發(fā)展,大量有價(jià)值的數(shù)據(jù)都可以通過對互聯(lián)網(wǎng)數(shù)據(jù)的采集來獲取。
傳統(tǒng)的數(shù)據(jù)采集技術(shù)一般不涉及對網(wǎng)站訪問請求的人為變更,即不會根據(jù)采集需求人為修改請求訪問參數(shù),通常都是根據(jù)網(wǎng)站頁面的默認(rèn)顯示形式去遍歷網(wǎng)站進(jìn)而獲取全量目標(biāo)數(shù)據(jù)。
由于目前各大網(wǎng)站的內(nèi)容不斷擴(kuò)展、數(shù)據(jù)總量不斷增大,按網(wǎng)站默認(rèn)顯示形式發(fā)送請求獲取響應(yīng)數(shù)據(jù)所需的發(fā)送次數(shù)大幅增長。放任采集程序按照既定的顯示參數(shù)從網(wǎng)站提取全量目標(biāo)數(shù)據(jù),所需的采集用時(shí)、資源節(jié)點(diǎn)、處理加工等數(shù)據(jù)采集成本也隨之大幅上升。故在互聯(lián)網(wǎng)數(shù)據(jù)采集過程中,如何避免因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采是目前亟待解決的問題。
專利號為CN108804620A的專利文獻(xiàn)公開了一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法、系統(tǒng)及計(jì)算機(jī)終端。該方法包括:S1從所述待采集列表中獲取待采集對象,根據(jù)預(yù)設(shè)規(guī)則構(gòu)造該待采集對象的訪問鏈接;S2根據(jù)所述訪問鏈接獲取所述待采集對象的網(wǎng)頁內(nèi)容,對所述網(wǎng)頁內(nèi)容進(jìn)行解析以獲取包含所述待采集對象的相關(guān)對象的有用信息,存儲所述有用信息及將所述待采集對象加入已采集列表中;S3判斷所述相關(guān)對象是否在待采集列表或已采集列表中,若均不存在,將所述相關(guān)對象加入到待采集列表中,重新執(zhí)行步驟S1及后續(xù)步驟直至所述待采集列表內(nèi)所有對象的有用信息采集完畢。該技術(shù)方案解決了如何通過一個(gè)訪問鏈接發(fā)現(xiàn)新的價(jià)值鏈接的情況,實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集的自動化及全面化,但是不能解決因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采的問題。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是提供一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng),來解決如何避免因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采的問題。
本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,該方法是通過自定義的數(shù)據(jù)顯示上限和偏移值對網(wǎng)站發(fā)送檢索請求,得到相關(guān)聯(lián)的定制化檢索結(jié)果,經(jīng)由一次或少次請求遍歷獲取全量數(shù)據(jù),再將得到檢索結(jié)果合并后做結(jié)構(gòu)化處理,保存入庫達(dá)到數(shù)據(jù)采集的目的。
作為優(yōu)選,該方法具體如下:
S1、獲取默認(rèn)參數(shù):通過瀏覽器開發(fā)工具或數(shù)據(jù)采集工具對向目標(biāo)網(wǎng)站發(fā)送的檢索請求或翻頁請求進(jìn)行攔截,獲取包括每頁顯示上限和當(dāng)前頁數(shù)(即偏移值)在內(nèi)的各個(gè)請求參數(shù)名稱和值;
S2、參數(shù)自定義:根據(jù)網(wǎng)站的目標(biāo)數(shù)據(jù)總量,人為調(diào)整增大顯示上限的數(shù)值并設(shè)定合理的偏移量,將全量數(shù)據(jù)分割為小于網(wǎng)站總頁數(shù)的數(shù)塊;
S3、發(fā)送測試請求:自定義的數(shù)據(jù)顯示上限和偏移值后,發(fā)送1次請求并獲取網(wǎng)站響應(yīng)數(shù)據(jù),與網(wǎng)站對應(yīng)偏移量的網(wǎng)頁數(shù)據(jù)作對比,判斷兩者是否符合:
①、若是,則說明該方法有效,能夠發(fā)送定量定向請求,執(zhí)行步驟S4;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司,未經(jīng)浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010596000.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





