日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]信息爬取方法與裝置在審

專利信息
申請號: 201710994107.6 申請日: 2017-10-23
公開(公告)號: CN107729508A 公開(公告)日: 2018-02-23
發明(設計)人: 苑海江;黨啟賀 申請(專利權)人: 北京京東金融科技控股有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F9/445;G06F9/48;G06F9/50
代理公司: 北京律智知識產權代理有限公司11438 代理人: 闞梓瑄,王衛忠
地址: 101111 北京市北京經濟*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 信息 方法 裝置
【說明書】:

技術領域

本公開涉及互聯網技術領域,具體而言,涉及一種通過配置爬取模板以爬取信息的信息爬取方法與裝置。

背景技術

隨著大數據時代的到來,數據的重要性日漸突出,大量數據的采集工作也越來越重要。目前,數據采集的途徑主要分為利用內部數據進行采集和利用互聯網進行采集,常見技術是針對需要采集的數據來進行編碼抓取指定數據。在利用互聯網進行數據采集時,可以分為利用搜索引擎進行采集和利用爬蟲進行爬取。

搜索引擎平臺能夠全網采集互聯網上的開放信息,采集數據范圍廣,更新頻率快,采集數據量大,但是采集的信息多為模糊信息,結果精確度不高,數據非結構化,難以提供準確而干凈的數據,因此當需要獲取精確數據時,通常采集精確數據通常利用爬蟲對信息進行精確爬取。

利用爬蟲對信息進行精確爬取通常需要針對每類目標頁面定制編碼,因此具有數據采集靈活、抓取信息精準、抓取方向可控的優點,但是所需工作量大,代碼維護復雜、困難并且抓取速度受單臺機器性能的限制。此外,由于現有方法通常需要加載頁面內容,并將頁面內所有內容下載后再進行爬取,在需要爬取多個網頁時會占用大量資源,導致爬取速度過慢。

因此,需要一種能夠高效率精確爬取信息的信息爬取方法。

需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。

發明內容

本公開的目的在于提供信息爬取,用于至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或多個問題。

根據本公開實施例的第一方面,提供一種信息爬取方法,包括:獲取根據目標網站的網頁結構以及信息爬取需求生成的配置文件;根據所述配置文件執行對所述網站的信息爬取任務。

在本公開的一種示例性實施例中,所述配置文件包括:所述爬取任務的設置信息以及所述目標網站的入口URL;與所述網頁層級結構的每一層對應的爬取策略組件組。

在本公開的一種示例性實施例中,所述爬取策略組件組包括多個組件,所述組件包括多個獨立執行爬取功能的插件。

在本公開的一種示例性實施例中,根據所述配置文件執行對所述網站的信息爬取任務包括:獲取當前URL內容;判斷是否需要輸入關鍵詞,如果需要則根據配置文件輸入關鍵詞;判斷是否需要保存當前URL的內容,如果需要則根據配置文件中的保存策略保存當前URL的內容;判斷是否需要生成下一級URL,如果不需要則結束爬取流程,如果需要則根據配置文件生成下一級URL。

在本公開的一種示例性實施例中,執行對所述網站的信息爬取任務包括:

通過平臺調度集群內的多臺計算機同時執行多個信息爬取任務。

根據本公開實施例的第二方面,提供一種信息爬取裝置,包括:

配置文件獲取模塊,設置為獲取根據目標網站的網頁結構以及信息爬取需求生成的配置文件;配置文件執行模塊,設置為根據所述配置文件執行對所述網站的信息爬取任務。

在本公開的一種示例性實施例中,所述配置文件包括:所述爬取任務的設置信息以及所述目標網站的入口URL;與所述網頁層級結構的每一層分別對應的多個爬取策略組件組。

在本公開的一種示例性實施例中,所述爬取策略組件組包括多個組件,所述組件包括多個獨立執行爬取功能的插件。

在本公開的一種示例性實施例中,所述配置文件執行模塊包括:內容獲取單元,設置為獲取一個URL對應的內容;關鍵詞輸入單元,設置為判斷是否需要輸入關鍵詞,如果需要則通過所述配置文件中與所述URL對應的爬取策略組件組對當前網頁輸入關鍵詞;內容保存單元,設置為判斷是否需要保存所述內容,如果需要則通過所述配置文件中與所述URL對應的爬取策略組件組保存所述內容;下級URL生成單元,設置為判斷是否需要生成下一級URL,如果不需要則結束爬取流程,如果需要則通過所述配置文件中與所述URL對應的爬取策略組件組生成下一級URL。

在本公開的一種示例性實施例中,還包括:平臺調度模塊,設置為通過平臺調度集群內的多臺計算機同時執行多個信息爬取任務。

根據本公開實施例的第三方面,提供一種信息爬取裝置,包括:存儲器;以及耦合到所屬存儲器的處理器,處理器被配置為基于存儲在存儲器中的指令,執行如上述任意一項所述的方法。

根據本公開實施例的第四方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述任意一項所述的方法步驟。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東金融科技控股有限公司,未經北京京東金融科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710994107.6/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美精品一卡二卡| 日本精品视频一区二区三区| 久久99精| 欧美精品在线观看一区二区| а√天堂8资源中文在线| 中文字幕av一区二区三区高| 视频一区欧美| 国产二区不卡| 国产亚洲精品久久久久久久久动漫| 国产精品久久久久久久久久软件| 中文字幕欧美日韩一区| 国产清纯白嫩初高生在线观看性色| 国产精品久久久久免费a∨大胸| 国产精品对白刺激在线观看| 91午夜在线观看| 日韩精品久久久久久久电影99爱| 香蕉av一区二区三区| 男女无遮挡xx00动态图120秒| 真实的国产乱xxxx在线91| 久久精品国产99| 国产一区三区四区| 精品国产乱码久久久久久软件影片| 欧美一区二区三区在线免费观看 | 精品一区电影国产| 亚洲乱在线| 91一区二区三区在线| 久久国产精品网站| 欧美高清xxxxx| 日本精品一二区| 国内精品久久久久久久星辰影视| 国产电影精品一区| 国产88av| 亚洲神马久久| 亚洲码在线| 91麻豆精品国产91久久久更新资源速度超快 | av中文字幕一区二区| 欧美精品日韩精品| 亚洲1区在线观看| 91福利试看| 99国产精品一区| 亚洲国产欧美一区| 99爱国产精品| 国产91久久久久久久免费| 日本三级韩国三级国产三级| 少妇特黄v一区二区三区图片| 少妇av一区二区三区| 日韩久久精品一区二区| 96精品国产| 亚洲欧美一区二区三区1000 | 李采潭伦理bd播放| 国产盗摄91精品一区二区三区| 国产一级不卡视频| 久久99精品国产麻豆婷婷| 精品视频久| 毛片大全免费看| 欧美精品一区二区三区在线四季| 亚洲欧美日韩一级| 综合久久激情| 欧洲激情一区二区| 国产亚洲精品久久yy50| 91区国产| 日韩欧美高清一区| 日本三级香港三级| 久久精品国产99| 午夜精品一区二区三区aa毛片| 国内少妇偷人精品视频免费| 亚洲欧美日韩视频一区| 国产精品无码专区在线观看| 国产精品国产三级国产专播精品人| 99久久国产综合精品女不卡| 欧美日韩一区不卡| 国产精品v欧美精品v日韩| 久久国产欧美一区二区三区精品| 亚洲精品日日夜夜| 亚洲精品www久久久久久广东 | 91精品国产91热久久久做人人| 中文乱码在线视频| 亚洲日韩aⅴ在线视频| 丝袜诱惑一区二区三区| 亚洲精品日本无v一区| 日韩精品久久久久久中文字幕8| 亚洲精品久久久久中文字幕欢迎你 | 日韩一级片免费视频| 欧美日韩中文字幕一区| 欧美亚洲视频二区| 欧美一区二区综合| 久久午夜鲁丝片午夜精品| 中文字幕一区二区三区不卡| 亚洲精品国产精品国产| 国产日产精品一区二区三区| 国产精品高潮在线| 亚洲网久久| 国产一区二区高清视频| 国产一区在线免费| 欧美人妖一区二区三区| 日韩精品免费播放| 日韩区欧美久久久无人区| 国产aⅴ一区二区| 日本一二三区视频在线| 欧美精品一区二区三区视频| 国产精品电影一区二区三区| 日韩精品在线一区二区三区| 国产精品一二三区视频出来一| 国产精品久久久久久久妇女| 伊人久久婷婷色综合98网| 国产麻豆一区二区三区在线观看| 精品国产伦一区二区三区免费 | 97国产精品久久| 日韩精品中文字幕在线播放| 视频一区二区中文字幕| 91久久一区二区| 亚洲在线久久| 一区二区三区欧美精品| 亚洲精品乱码久久久久久按摩| 亚洲免费永久精品国产| 欧美精品日韩一区| 99久久国产综合| 欧美日韩偷拍一区| 国产精品日产欧美久久久久| 伊人精品一区二区三区| 日韩欧美一区精品| 夜夜嗨av色一区二区不卡| 日韩精品少妇一区二区在线看| 国产一区二区三区中文字幕| 国产美女视频一区二区三区| 狠狠躁夜夜av| 亚洲欧美制服丝腿| 91看片app| 91嫩草入口| 国产精品麻豆一区二区三区| 国产精品视频一区二区二| 亚洲精品日本久久一区二区三区| 亚洲精品日日夜夜| 国产午夜亚洲精品午夜鲁丝片| 国产男女乱淫真高清视频免费| 亚洲精品456| 香蕉视频在线观看一区二区| 亚洲国产精品激情综合图片| 国产欧美日韩中文字幕| 国产欧美三区| 午夜剧场a级免费| 欧美乱妇高清无乱码免费| 99国产精品9| 国产精品久久久久久久妇女| 欧美精品二区三区| 亚洲午夜国产一区99re久久| 91理论片午午伦夜理片久久 | 欧美综合在线一区| 亚日韩精品| 午夜色影院| 国产精品国产亚洲精品看不卡15 | 国产香蕉97碰碰久久人人| 伊人精品一区二区三区| 国产欧美日韩精品一区二区图片| 国产精品刺激对白麻豆99| 国产69精品久久久久久野外| 国产91免费在线| 午夜精品一区二区三区aa毛片| 亚洲精品日韩在线| 久99久视频| 一区二区三区国产精品| 日本中文字幕一区| 国产在线拍揄自揄拍| 久久99久久99精品蜜柚传媒| 欧美乱码精品一区二区三| 久久一二区| 欧美日本三级少妇三级久久| 日本高清不卡二区| 韩漫无遮韩漫免费网址肉| freexxxxxxx| 日韩欧美激情| 久久99国产综合精品| 欧美系列一区| 午夜av网址| 欧美亚洲精品suv一区| 日本精品一区视频| 国产91丝袜在线播放动漫| 亚洲欧美日韩在线看| 国产精品9区| 日本一区二区三区免费播放| 国产伦高清一区二区三区| 九九久久国产精品| 国产精品九九九九九九九| 毛片大全免费观看| 亚洲午夜精品一区二区三区电影院 | 免费午夜在线视频| 国产精品九九九九九| 午夜三级电影院| 国产精品视频一区二区在线观看| 欧美大成色www永久网站婷| 久久国产精品波多野结衣| 91日韩一区二区三区| 理论片高清免费理伦片| 福利片91| 日韩精品免费一区| 午夜理伦影院| 日韩精品一区在线视频| 亚洲欧美一卡| 99日本精品| 国产无套精品久久久久久| 亚洲精品一区二区三区香蕉| 视频一区二区三区中文字幕| 亚洲精品日韩在线| 久久噜噜少妇网站| 一区二区三区精品国产| 国产网站一区二区| 蜜臀久久99精品久久久| 亚洲视频h| 日本边做饭边被躁bd在线看| 国产在线欧美在线| 精品国产一区二区三区免费| 亚洲一区中文字幕| 国产精品亚发布| 国产精品乱码一区| 日韩精品中文字幕一区| 国内少妇偷人精品视频免费| 丰满岳乱妇在线观看中字 | 搡少妇在线视频中文字幕| 国产乱对白刺激视频在线观看| 午夜wwww| 久久99久久99精品免观看软件| 亚洲精品久久久久www| 免费毛片a| 久久精品—区二区三区| 美女直播一区二区三区| 一区二区三区国产欧美| xxxx18hd护士hd护士| 国产真实乱偷精品视频免| 夜色av网| 精品国产乱码久久久久久图片| 国产精品v欧美精品v日韩| 国产中文字幕一区二区三区| 精品videossexfreeohdbbw| 国产经典一区二区| 国产欧美一区二区精品久久| 婷婷午夜影院| 国产一区二区三区中文字幕| 国产经典一区二区| 国产日本一区二区三区| 国产乱色国产精品播放视频| 一区二区中文字幕在线| 日韩午夜电影在线| 97国产精品久久| 日韩精品中文字幕在线播放| 99爱精品视频| 国产精品一区二区免费视频|