日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法及裝置有效

專利信息
申請(qǐng)?zhí)枺?/td> 201611243842.5 申請(qǐng)日: 2016-12-29
公開(公告)號(hào): CN106777281B 公開(公告)日: 2020-07-17
發(fā)明(設(shè)計(jì))人: 張軍;賈西貝 申請(qǐng)(專利權(quán))人: 深圳市華傲數(shù)據(jù)技術(shù)有限公司
主分類號(hào): G06F16/951 分類號(hào): G06F16/951;G06F16/955
代理公司: 北京酷愛智慧知識(shí)產(chǎn)權(quán)代理有限公司 11514 代理人: 任媛
地址: 518000 廣東省深圳市龍華新區(qū)清*** 國省代碼: 廣東;44
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 用于 提高 網(wǎng)絡(luò) 爬蟲 穩(wěn)定性 可用性 數(shù)據(jù)處理 方法 裝置
【說明書】:

發(fā)明涉及一種用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法及裝置。本發(fā)明提供的方法,包括:步驟S1,根據(jù)事先指定的特征,判斷當(dāng)前頁面是否發(fā)生了局部結(jié)構(gòu)性變動(dòng);步驟S2,若未發(fā)生結(jié)構(gòu)性變動(dòng),則獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析所述當(dāng)前頁面中的內(nèi)容;步驟S3,根據(jù)預(yù)先配置的映射規(guī)則,對(duì)通過解析獲取的業(yè)務(wù)字段名做自適應(yīng)映射,并存儲(chǔ)到存儲(chǔ)區(qū)。本發(fā)明提供的用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法及裝置,可以自動(dòng)識(shí)別網(wǎng)頁頁面的非結(jié)構(gòu)性變化,并采用自適應(yīng)的數(shù)據(jù)抽取邏輯,無須頻繁維護(hù)。

技術(shù)領(lǐng)域

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法及裝置。

背景技術(shù)

隨著互聯(lián)網(wǎng)的普及和發(fā)展,電子商務(wù)網(wǎng)站,門戶網(wǎng)站,博客,微博等各種類型的信息都發(fā)布在互聯(lián)網(wǎng)上,人們可以通過互聯(lián)網(wǎng)搜集海量資訊并進(jìn)行分析、統(tǒng)計(jì),以獲取需要的信息。

現(xiàn)有的方法是采用網(wǎng)絡(luò)爬蟲技術(shù)獲取信息,除去圖片、視頻等二進(jìn)制內(nèi)容,網(wǎng)絡(luò)爬蟲一般獲取的是網(wǎng)頁文本內(nèi)容,傳統(tǒng)爬蟲使用正則表達(dá)式、xpath或者位置進(jìn)行信息的解析。

但存在的問題是,網(wǎng)頁是動(dòng)態(tài)變化的,比如:業(yè)務(wù)字段名/字段值的位置、html的標(biāo)簽id、xpath路徑可能隨時(shí)會(huì)發(fā)生變化。網(wǎng)頁的動(dòng)態(tài)特性決定了網(wǎng)絡(luò)爬蟲頻繁維護(hù)的特性,因此,現(xiàn)有的網(wǎng)絡(luò)爬蟲普適性差、維護(hù)成本很高。

發(fā)明內(nèi)容

針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供的用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法及裝置,可以自動(dòng)識(shí)別網(wǎng)頁頁面的非結(jié)構(gòu)性變化,并采用自適應(yīng)的數(shù)據(jù)抽取邏輯,無須頻繁維護(hù)。

第一方面,本發(fā)明提供的一種用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法,包括:步驟S1,根據(jù)事先指定的特征,判斷當(dāng)前頁面是否發(fā)生了局部結(jié)構(gòu)性變動(dòng);步驟S2,若未發(fā)生結(jié)構(gòu)性變動(dòng),則獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析所述當(dāng)前頁面中的內(nèi)容;步驟S3,根據(jù)預(yù)先配置的映射規(guī)則,對(duì)通過解析獲取的業(yè)務(wù)字段名做自適應(yīng)映射,并存儲(chǔ)到存儲(chǔ)區(qū)。

本發(fā)明提供的用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理方法,可以自動(dòng)識(shí)別網(wǎng)頁頁面的非結(jié)構(gòu)性變化,并采用自適應(yīng)的數(shù)據(jù)抽取邏輯,無須頻繁維護(hù),節(jié)約了成本,同時(shí)提高了網(wǎng)頁數(shù)據(jù)爬取的穩(wěn)定性,具備更好的普適性。

優(yōu)選地,所述步驟S1包括:逐一比對(duì)事先指定的特征和當(dāng)前頁面的對(duì)應(yīng)標(biāo)簽,若不一致,則認(rèn)為所述當(dāng)前頁面發(fā)生了局部結(jié)構(gòu)性變動(dòng)。

優(yōu)選地,所述步驟S2包括:獲取所述當(dāng)前頁面的HTML文件;從所述HTML文件抽取出Table標(biāo)簽中的內(nèi)容和div標(biāo)簽中的內(nèi)容;根據(jù)所述Table標(biāo)簽中的內(nèi)容獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析內(nèi)容;根據(jù)所述div標(biāo)簽中的內(nèi)容獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析內(nèi)容。

優(yōu)選地,所述根據(jù)所述Table標(biāo)簽中的內(nèi)容獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析內(nèi)容,包括:檢測(cè)所述Table標(biāo)簽中的標(biāo)題部分;抽取所述Table標(biāo)簽中除標(biāo)題部分的多維度信息;根據(jù)抽取的所述多維度信息判斷結(jié)構(gòu)布局;根據(jù)所述結(jié)構(gòu)布局獲取業(yè)務(wù)數(shù)據(jù)。

優(yōu)選地,所述根據(jù)所述div標(biāo)簽中的內(nèi)容獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析內(nèi)容,包括:從所述div標(biāo)簽中獲取與已知業(yè)務(wù)字段名匹配的label,并根據(jù)匹配到的label在div標(biāo)簽中的位置判斷結(jié)構(gòu)布局,根據(jù)結(jié)構(gòu)布局獲取業(yè)務(wù)數(shù)據(jù)。

第二方面,本發(fā)明提供的一種用于提高網(wǎng)絡(luò)爬蟲穩(wěn)定性、可用性的數(shù)據(jù)處理裝置,包括:結(jié)構(gòu)性變動(dòng)檢測(cè)模塊,用于根據(jù)事先指定的特征,判斷當(dāng)前頁面是否發(fā)生了局部結(jié)構(gòu)性變動(dòng);解析模塊,用于若未發(fā)生結(jié)構(gòu)性變動(dòng),則獲取所述當(dāng)前頁面的結(jié)構(gòu)布局,根據(jù)所述當(dāng)前頁面的結(jié)構(gòu)布局解析所述當(dāng)前頁面中的內(nèi)容;字段自適應(yīng)調(diào)整模塊,根據(jù)預(yù)先配置的映射規(guī)則,對(duì)通過解析獲取的業(yè)務(wù)字段名做自適應(yīng)映射,并存儲(chǔ)到存儲(chǔ)區(qū)。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市華傲數(shù)據(jù)技術(shù)有限公司,未經(jīng)深圳市華傲數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611243842.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖技術(shù)構(gòu)造圖;

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 91精品一区在线观看| 日本二区在线播放| 国产电影一区二区三区下载| 日韩中文字幕在线一区| 久久午夜鲁丝片午夜精品| 精品无码久久久久国产| 欧美在线视频精品| 一区二区三区欧美精品| 一本大道久久a久久精品| 中文字幕日本一区二区| 国产一区二区综合| 精品国精品国产自在久不卡| 国产一区在线视频播放| 国产精品久久91| 日韩电影在线一区二区三区| 精品日韩久久久| 欧美在线视频一区二区三区| 精品国产18久久久久久依依影院| sb少妇高潮二区久久久久| 欧美精品第一区| 国产精品久久亚洲7777| 亚洲福利视频二区| 午夜影院一区| 国产精品一二三区免费| 免费看大黄毛片全集免费| 欧美一区二区在线不卡| 6080日韩午夜伦伦午夜伦| 99久久婷婷国产综合精品草原| 亚洲欧美日韩综合在线| 躁躁躁日日躁网站| 亚洲日韩欧美综合| 91波多野结衣| 精品国产区一区二| 日韩精品一区二区中文字幕| xxxx18hd护士hd护士| 日韩一区免费| 99国产精品久久久久| 香蕉av一区| 91精品久久久久久| 久久国产欧美日韩精品| 国产精品理人伦一区二区三区| 中文文精品字幕一区二区| 91精品国产一区二区三区| 在线国产二区| 影音先锋久久久| 亚洲在线久久| 国产精品久久久久久久久久不蜜月 | 久久精品欧美一区二区| 窝窝午夜理伦免费影院| 大伊人av| 国产精品9区| 蜜臀久久久久久999| 国产足控福利视频一区| 国产在线一区不卡| 久久夜色精品国产亚洲| 色综合久久久久久久粉嫩| 国产偷窥片| 少妇自拍一区| 国产精品一区二区三| 热re99久久精品国99热蜜月| 岛国精品一区二区| 99久久婷婷国产综合精品电影| 国产乱码一区二区| 夜色av网站| 久久99精品久久久久婷婷暖91| 亚洲欧美制服丝腿| xoxoxo亚洲国产精品| 欧美一区二区伦理片| 日韩av中文字幕第一页| 国产精品一二三区免费| 国产精品九九九九九| 欧美一区二区三区日本| 国产精品18久久久久久白浆动漫| 久久久久国产精品免费免费搜索 | 狠狠色噜噜狠狠狠狠米奇777| 欧美亚洲视频一区二区| 最新av中文字幕| 午夜伦情电午夜伦情电影| 香蕉av一区二区三区| 一区二区三区精品国产| 91久久精品久久国产性色也91| 狠狠色噜噜狠狠狠狠视频| 国产乱色国产精品播放视频| 欧美综合国产精品久久丁香| 日韩av中文字幕在线免费观看| 老太脱裤子让老头玩xxxxx| 国产人伦精品一区二区三区| 艳妇荡乳欲伦2| 欧美一区二区色| 99国产精品永久免费视频 | 欧美一区二三区| 国产一区二区影院| 国产69精品99久久久久久宅男| 国产一区二区大片| 欧美精品中文字幕在线观看| 国产在线不卡一区| 91久久久爱一区二区三区| 午夜特级片| 一区二区三区精品国产| 亚洲一区二区福利视频| 91黄在线看| 国产大学生呻吟对白精彩在线| 国产高清在线精品一区二区三区| 精品国产一区二区三区麻豆免费观看完整版 | 日韩欧美中文字幕精品| 国产高清精品一区| 在线视频国产一区二区| 午夜激情综合网| 四虎国产精品永久在线国在线| 国产91色综合| 亚洲欧美日韩视频一区| 窝窝午夜理伦免费影院| 国产乱了高清露脸对白| 国产精品日韩一区二区| 中文字幕一区一区三区| 精品少妇一区二区三区免费观看焕| 美女直播一区二区三区| 国产欧美日韩中文字幕| 成年人性生活免费看| 国产欧美一区二区三区在线播放| 欧美freesex极品少妇| 国产精品美女www爽爽爽视频| 国内久久精品视频| 亚洲福利视频二区| 国产在线观看免费麻豆| 免费观看xxxx9999片| 欧美精品久久一区| 日本不卡精品| 欧美日韩一区二区高清| 久久99精品久久久久国产越南| 美女被羞羞网站视频软件| 欧美在线视频一区二区三区| 精品国产一区二区三区麻豆免费观看完整版 | 国产69精品99久久久久久宅男| 欧美乱偷一区二区三区在线| 亚洲欧美另类久久久精品2019| 国产不卡一区在线| 国产精品久久久久激情影院| 欧美精品在线视频观看| 久久99亚洲精品久久99果| 国产乱人乱精一区二视频国产精品| а√天堂8资源中文在线| 国产麻豆一区二区三区精品| 国产在线不卡一| 午夜激情综合网| 国产麻豆一区二区三区在线观看 | 亚洲精品久久久久久动漫| 亚洲自偷精品视频自拍| 亚洲精品久久久中文| 亚洲精品一区,精品二区| 国产91九色在线播放| 久久综合激情网| 欧美日韩国产123| 美国三级日本三级久久99| 国产精品9区| 国产午夜三级一二三区| 女女百合互慰av| 日韩av在线电影网| 日本aⅴ精品一区二区三区日| 国产一区二区三区四区五区七| 国产性生交xxxxx免费| 中文文精品字幕一区二区| 在线播放国产一区| 日韩一区免费| 91麻豆国产自产在线观看hd| 狠狠躁夜夜| 日韩一级精品视频在线观看| 丰满岳乱妇bd在线观看k8| 免费观看黄色毛片| 亚洲美女在线一区| 国产精品日韩一区二区三区| 97香蕉久久国产超碰青草软件| 97久久精品人人做人人爽| 久久国产欧美一区二区免费| 国产suv精品一区二区4| 亚洲国产精品女主播| 久久久久久久久久国产精品| 国产乱一乱二乱三| 香港三日本三级三级三级| 国产午夜精品免费一区二区三区视频| 国产区一二| 国产精品视频免费看人鲁| 国产一区二区三区久久久| 综合久久一区| 538国产精品一区二区免费视频| 国产一级片子| 精品无人国产偷自产在线| 国产欧美视频一区二区三区| 91精品高清| 久久综合伊人77777麻豆最新章节| 黄色91在线观看| 亚洲s码欧洲m码在线观看| 久久噜噜少妇网站| 91亚洲精品国偷拍| 国产乱xxxxx97国语对白| 国内精品久久久久久久星辰影视| 午夜爽爽爽男女免费观看| 国产全肉乱妇杂乱视频在线观看| 久久精品com| 午夜看大片| 久久一区二区精品视频| 国产91一区| 国产精品久久久视频| 日韩中文字幕亚洲精品欧美| 日本一区二区三区电影免费观看| 日韩精品免费一区二区夜夜嗨| 国产91视频一区| 国产日韩欧美中文字幕| 国产欧美日韩在线观看| 91精品视频一区二区三区| 日韩精品免费一区二区三区| 夜夜躁人人爽天天天天大学生| 欧美日韩国产精品综合| 又黄又爽又刺激久久久久亚洲精品 | 亚洲欧美一二三| 91久久国产露脸精品国产| 国产日韩欧美三级| 国产一区二区91| 妖精视频一区二区三区| 亚洲精品乱码久久久久久按摩| 午夜伦全在线观看| 久久久精品欧美一区二区免费| 一区二区三区四区中文字幕| 午夜三级大片| 秋霞三级伦理| 最新国产精品自拍| 午夜老司机电影| 国产精品欧美日韩在线| 5g影院天天爽入口入口| 欧美日韩国产在线一区| 日本一码二码三码视频| 69久久夜色精品国产7777| 日韩精品免费一区二区在线观看| 91精品中综合久久久婷婷| 中文字幕一二三四五区| 亚洲免费永久精品国产| 日韩av在线网| 国产日韩欧美精品一区二区| 右手影院av| 国产电影精品一区二区三区| 91麻豆精品国产91久久久更新时间| 精品国产一区二区三区麻豆免费观看完整版 | 日韩精品免费一区| 91精品丝袜国产高跟在线| 欧美一区视频观看| 好吊色欧美一区二区三区视频|