日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng)在審

專利信息
申請?zhí)枺?/td> 202010596000.8 申請日: 2020-06-28
公開(公告)號: CN111723268A 公開(公告)日: 2020-09-29
發(fā)明(設(shè)計(jì))人: 邢榮;李一峰 申請(專利權(quán))人: 浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司
主分類號: G06F16/953 分類號: G06F16/953;G06F16/957;G06F16/958
代理公司: 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 代理人: 孫園園
地址: 214029 江蘇省無錫市濱*** 國省代碼: 江蘇;32
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 定向 定量 互聯(lián)網(wǎng) 數(shù)據(jù) 采集 方法 系統(tǒng)
【說明書】:

本發(fā)明公開了一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng),屬于大數(shù)據(jù)應(yīng)用與分析領(lǐng)域,本發(fā)明要解決的技術(shù)問題為如何避免因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采,采用的技術(shù)方案為:該方法是通過自定義的數(shù)據(jù)顯示上限和偏移值對網(wǎng)站發(fā)送檢索請求,得到相關(guān)聯(lián)的定制化檢索結(jié)果,經(jīng)由一次或少次請求遍歷獲取全量數(shù)據(jù),再將得到檢索結(jié)果合并后做結(jié)構(gòu)化處理,保存入庫達(dá)到數(shù)據(jù)采集的目的。該系統(tǒng)包括默認(rèn)參數(shù)獲取模塊、參數(shù)自定義模塊、測試請求發(fā)送模塊、全量數(shù)據(jù)獲取模塊及數(shù)據(jù)處理入庫模塊。

技術(shù)領(lǐng)域

本發(fā)明涉及大數(shù)據(jù)應(yīng)用與分析領(lǐng)域,特別涉及數(shù)據(jù)挖掘領(lǐng)域的數(shù)據(jù)采集方法和網(wǎng)絡(luò)爬蟲技術(shù),具體地說是一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng)。

背景技術(shù)

現(xiàn)在的社會是一個(gè)高速發(fā)展的社會,隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長,人們愈加認(rèn)識到數(shù)據(jù)的重要性,數(shù)據(jù)這一概念已經(jīng)引起了各行業(yè)從業(yè)者與用戶的廣泛關(guān)注。對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。而隨著政府信息公開與企業(yè)數(shù)字化發(fā)展,大量有價(jià)值的數(shù)據(jù)都可以通過對互聯(lián)網(wǎng)數(shù)據(jù)的采集來獲取。

傳統(tǒng)的數(shù)據(jù)采集技術(shù)一般不涉及對網(wǎng)站訪問請求的人為變更,即不會根據(jù)采集需求人為修改請求訪問參數(shù),通常都是根據(jù)網(wǎng)站頁面的默認(rèn)顯示形式去遍歷網(wǎng)站進(jìn)而獲取全量目標(biāo)數(shù)據(jù)。

由于目前各大網(wǎng)站的內(nèi)容不斷擴(kuò)展、數(shù)據(jù)總量不斷增大,按網(wǎng)站默認(rèn)顯示形式發(fā)送請求獲取響應(yīng)數(shù)據(jù)所需的發(fā)送次數(shù)大幅增長。放任采集程序按照既定的顯示參數(shù)從網(wǎng)站提取全量目標(biāo)數(shù)據(jù),所需的采集用時(shí)、資源節(jié)點(diǎn)、處理加工等數(shù)據(jù)采集成本也隨之大幅上升。故在互聯(lián)網(wǎng)數(shù)據(jù)采集過程中,如何避免因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采是目前亟待解決的問題。

專利號為CN108804620A的專利文獻(xiàn)公開了一種互聯(lián)網(wǎng)數(shù)據(jù)采集方法、系統(tǒng)及計(jì)算機(jī)終端。該方法包括:S1從所述待采集列表中獲取待采集對象,根據(jù)預(yù)設(shè)規(guī)則構(gòu)造該待采集對象的訪問鏈接;S2根據(jù)所述訪問鏈接獲取所述待采集對象的網(wǎng)頁內(nèi)容,對所述網(wǎng)頁內(nèi)容進(jìn)行解析以獲取包含所述待采集對象的相關(guān)對象的有用信息,存儲所述有用信息及將所述待采集對象加入已采集列表中;S3判斷所述相關(guān)對象是否在待采集列表或已采集列表中,若均不存在,將所述相關(guān)對象加入到待采集列表中,重新執(zhí)行步驟S1及后續(xù)步驟直至所述待采集列表內(nèi)所有對象的有用信息采集完畢。該技術(shù)方案解決了如何通過一個(gè)訪問鏈接發(fā)現(xiàn)新的價(jià)值鏈接的情況,實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集的自動化及全面化,但是不能解決因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采的問題。

發(fā)明內(nèi)容

本發(fā)明的技術(shù)任務(wù)是提供一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng),來解決如何避免因?yàn)椴杉秶蠖斐傻牟杉脮r(shí)長、資源節(jié)點(diǎn)占用量大、目標(biāo)數(shù)量漏采的問題。

本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,一種定向定量的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,該方法是通過自定義的數(shù)據(jù)顯示上限和偏移值對網(wǎng)站發(fā)送檢索請求,得到相關(guān)聯(lián)的定制化檢索結(jié)果,經(jīng)由一次或少次請求遍歷獲取全量數(shù)據(jù),再將得到檢索結(jié)果合并后做結(jié)構(gòu)化處理,保存入庫達(dá)到數(shù)據(jù)采集的目的。

作為優(yōu)選,該方法具體如下:

S1、獲取默認(rèn)參數(shù):通過瀏覽器開發(fā)工具或數(shù)據(jù)采集工具對向目標(biāo)網(wǎng)站發(fā)送的檢索請求或翻頁請求進(jìn)行攔截,獲取包括每頁顯示上限和當(dāng)前頁數(shù)(即偏移值)在內(nèi)的各個(gè)請求參數(shù)名稱和值;

S2、參數(shù)自定義:根據(jù)網(wǎng)站的目標(biāo)數(shù)據(jù)總量,人為調(diào)整增大顯示上限的數(shù)值并設(shè)定合理的偏移量,將全量數(shù)據(jù)分割為小于網(wǎng)站總頁數(shù)的數(shù)塊;

S3、發(fā)送測試請求:自定義的數(shù)據(jù)顯示上限和偏移值后,發(fā)送1次請求并獲取網(wǎng)站響應(yīng)數(shù)據(jù),與網(wǎng)站對應(yīng)偏移量的網(wǎng)頁數(shù)據(jù)作對比,判斷兩者是否符合:

①、若是,則說明該方法有效,能夠發(fā)送定量定向請求,執(zhí)行步驟S4;

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司,未經(jīng)浪潮卓數(shù)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010596000.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品中文字幕一区二区三区| 国产精品久久久久四虎| 996久久国产精品线观看| 欧美午夜一区二区三区精美视频| 91精品国产麻豆国产自产在线| 91一区二区三区在线| 亚洲精品久久久中文| 国产一级自拍| 国产精品视频1区| 99久精品视频| 夜色av网| 国产欧美精品一区二区在线播放| 狠狠躁日日躁狂躁夜夜躁av| 午夜av男人的天堂| 欧美精品第1页| 欧美乱偷一区二区三区在线 | 国产一级片网站| 欧美777精品久久久久网| 午夜国产一区二区三区四区| 亚洲乱小说| 国产精自产拍久久久久久蜜 | 四虎影视亚洲精品国产原创优播| 亚洲欧美一区二区精品久久久| 国产午夜精品一区二区三区欧美| 国产一区二区视频免费观看| 欧美激情视频一区二区三区免费| 国产麻豆91视频| 正在播放国产一区二区| 农村妇女毛片精品久久| 日韩欧美一区二区在线视频| 午夜理伦影院| 国产一区在线免费| 国产午夜精品免费一区二区三区视频 | 欧美一区二区三区久久精品| 欧美日韩一区视频| 欧美日韩乱码| 北条麻妃久久99精品| 久久影视一区二区| 欧美日韩卡一卡二| 日韩av中文字幕第一页| 国产不卡一二三区| 午夜剧场一区| 精品a在线| 久久亚洲精品国产一区最新章节| 午夜电影毛片| 97人人澡人人爽人人模亚洲| 一区二区在线精品| 欧美日韩不卡视频| 日本高清h色视频在线观看| 99久久国产综合| 久爱视频精品| 国产在线不卡一| 国产在线精品一区| 日韩av在线影视| 国产欧美日韩综合精品一| 88888888国产一区二区| 亚洲国产视频一区二区三区| 欧美日韩精品影院| 亚洲精品人| 国产欧美三区| 日本一二三区视频| 国产精品视频久久久久| 四虎国产精品永久在线国在线| 久久综合二区| 丝袜脚交一区二区| 亚洲久久在线| 欧美网站一区二区三区| 国产精品高清一区| 国产精品对白刺激久久久| 久久国产精久久精产国| 国产色婷婷精品综合在线手机播放| 亚洲精品日本久久一区二区三区| 久久精品国产亚洲一区二区| 欧美精品日韩一区| 狠狠插狠狠爱| 国产精品美女久久久免费| 国产精品久久久久精| 国产91精品一区二区麻豆亚洲| 国产1区2区3区中文字幕| 99日韩精品视频| 91黄色免费看| 国产麻豆一区二区三区在线观看|