[發明專利]信息爬取方法與裝置在審
| 申請號: | 201710994107.6 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107729508A | 公開(公告)日: | 2018-02-23 |
| 發明(設計)人: | 苑海江;黨啟賀 | 申請(專利權)人: | 北京京東金融科技控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/445;G06F9/48;G06F9/50 |
| 代理公司: | 北京律智知識產權代理有限公司11438 | 代理人: | 闞梓瑄,王衛忠 |
| 地址: | 101111 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 方法 裝置 | ||
技術領域
本公開涉及互聯網技術領域,具體而言,涉及一種通過配置爬取模板以爬取信息的信息爬取方法與裝置。
背景技術
隨著大數據時代的到來,數據的重要性日漸突出,大量數據的采集工作也越來越重要。目前,數據采集的途徑主要分為利用內部數據進行采集和利用互聯網進行采集,常見技術是針對需要采集的數據來進行編碼抓取指定數據。在利用互聯網進行數據采集時,可以分為利用搜索引擎進行采集和利用爬蟲進行爬取。
搜索引擎平臺能夠全網采集互聯網上的開放信息,采集數據范圍廣,更新頻率快,采集數據量大,但是采集的信息多為模糊信息,結果精確度不高,數據非結構化,難以提供準確而干凈的數據,因此當需要獲取精確數據時,通常采集精確數據通常利用爬蟲對信息進行精確爬取。
利用爬蟲對信息進行精確爬取通常需要針對每類目標頁面定制編碼,因此具有數據采集靈活、抓取信息精準、抓取方向可控的優點,但是所需工作量大,代碼維護復雜、困難并且抓取速度受單臺機器性能的限制。此外,由于現有方法通常需要加載頁面內容,并將頁面內所有內容下載后再進行爬取,在需要爬取多個網頁時會占用大量資源,導致爬取速度過慢。
因此,需要一種能夠高效率精確爬取信息的信息爬取方法。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供信息爬取,用于至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或多個問題。
根據本公開實施例的第一方面,提供一種信息爬取方法,包括:獲取根據目標網站的網頁結構以及信息爬取需求生成的配置文件;根據所述配置文件執行對所述網站的信息爬取任務。
在本公開的一種示例性實施例中,所述配置文件包括:所述爬取任務的設置信息以及所述目標網站的入口URL;與所述網頁層級結構的每一層對應的爬取策略組件組。
在本公開的一種示例性實施例中,所述爬取策略組件組包括多個組件,所述組件包括多個獨立執行爬取功能的插件。
在本公開的一種示例性實施例中,根據所述配置文件執行對所述網站的信息爬取任務包括:獲取當前URL內容;判斷是否需要輸入關鍵詞,如果需要則根據配置文件輸入關鍵詞;判斷是否需要保存當前URL的內容,如果需要則根據配置文件中的保存策略保存當前URL的內容;判斷是否需要生成下一級URL,如果不需要則結束爬取流程,如果需要則根據配置文件生成下一級URL。
在本公開的一種示例性實施例中,執行對所述網站的信息爬取任務包括:
通過平臺調度集群內的多臺計算機同時執行多個信息爬取任務。
根據本公開實施例的第二方面,提供一種信息爬取裝置,包括:
配置文件獲取模塊,設置為獲取根據目標網站的網頁結構以及信息爬取需求生成的配置文件;配置文件執行模塊,設置為根據所述配置文件執行對所述網站的信息爬取任務。
在本公開的一種示例性實施例中,所述配置文件包括:所述爬取任務的設置信息以及所述目標網站的入口URL;與所述網頁層級結構的每一層分別對應的多個爬取策略組件組。
在本公開的一種示例性實施例中,所述爬取策略組件組包括多個組件,所述組件包括多個獨立執行爬取功能的插件。
在本公開的一種示例性實施例中,所述配置文件執行模塊包括:內容獲取單元,設置為獲取一個URL對應的內容;關鍵詞輸入單元,設置為判斷是否需要輸入關鍵詞,如果需要則通過所述配置文件中與所述URL對應的爬取策略組件組對當前網頁輸入關鍵詞;內容保存單元,設置為判斷是否需要保存所述內容,如果需要則通過所述配置文件中與所述URL對應的爬取策略組件組保存所述內容;下級URL生成單元,設置為判斷是否需要生成下一級URL,如果不需要則結束爬取流程,如果需要則通過所述配置文件中與所述URL對應的爬取策略組件組生成下一級URL。
在本公開的一種示例性實施例中,還包括:平臺調度模塊,設置為通過平臺調度集群內的多臺計算機同時執行多個信息爬取任務。
根據本公開實施例的第三方面,提供一種信息爬取裝置,包括:存儲器;以及耦合到所屬存儲器的處理器,處理器被配置為基于存儲在存儲器中的指令,執行如上述任意一項所述的方法。
根據本公開實施例的第四方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述任意一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東金融科技控股有限公司,未經北京京東金融科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710994107.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





