[發明專利]分布式信息獲取系統及方法有效
| 申請號: | 201410371132.5 | 申請日: | 2014-07-30 |
| 公開(公告)號: | CN104102740A | 公開(公告)日: | 2014-10-15 |
| 發明(設計)人: | 洪倍 | 申請(專利權)人: | 精碩世紀科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;李峰 |
| 地址: | 100010 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 信息 獲取 系統 方法 | ||
技術領域
本發明涉及分布式系統,具體而言,涉及分布式信息獲取系統及方法。
背景技術
隨著信息技術的發展,網絡上的信息越來越多,通過網絡搜索引擎查找信息成了人們生活中的重要的信息來源。網絡搜索引擎主要利用網絡信息獲取裝置來獲取網絡上的信息。
目前,公知的網絡信息獲取裝置(例如網絡爬蟲)是使用單臺個人電腦(一般采用X86架構)或者服務器來完成數據采集工作,再將采集到的數據儲存于數據儲存模塊中,但此種方式所采用的抓取設備單一,因而導致信息獲取效率不高,所耗費時間長。又由于使用的設備(如個人電腦,服務器等)價格昂貴,成本高,因此給信息采集工作帶來不便。
發明內容
為了解決上述問題,本發明提供一種分布式信息獲取系統,包括:一個或多個請求生成裝置,用于生成獲取信息的任務請求;一個或多個任務管理裝置,用于根據所述任務請求確定任務的優先級并分配任務;多個任務執行裝置,用于根據所述任務管理器的分配執行所述任務以獲取信息;信息收集裝置,用于收集多個所述任務執行裝置獲取的信息;一個或多個數據解析裝置,用于對所述信息進行數據解析;以及數據儲存裝置,用于儲存進行過數據解析的信息。
優選地,所述任務管理裝置還包括:任務持久化裝置,用于將每個所述任務請求儲存至所述數據儲存裝置。
優選地,還包括:信息隊列裝置,用于將所述信息收集裝置收集到的信息構成隊列并按隊列的順序將所述信息提交至所述數據解析裝置。
優選地,所述信息收集裝置采用異步方式將收集到的信息發送至所述信息隊列裝置。
優選地,所述多個任務執行裝置還向所述任務管理裝置反饋每個所述任務執行裝置的執行狀態以供所述任務管理裝置分配未執行的任務。
根據本發明的又一方面,還提供一種分布式信息獲取方法,包括:生成獲取信息的任務請求;根據所述任務請求確定任務的優先級并向多個任務執行裝置分配任務;所述多個任務執行裝置執行所述任務以獲取信息;收集獲取的信息;對所述信息進行數據解析;以及儲存進行過數據解析的信息。
優選地,所述根據所述任務請求確定任務的優先級并向多個任務執行裝置分配任務還包括:將每個所述任務請求儲存至一數據儲存裝置。
優選地,所述收集獲取的信息之后,所述對所述信息進行數據解析之前還包括:將收集到的信息構成隊列并按隊列的順序進行數據解析。
優選地,所述將收集到的信息構成隊列并按隊列的順序進行數據解析包括:采用異步方式將收集到的信息更新至所述隊列。
優選地,還包括:根據多個所述任務執行裝置的已分配任務的執行狀態向多個所述任務執行裝置分配未執行的任務。
本發明通過分布式信息獲取的方法,利用任務管理裝置向多個任務執行裝置根據任務優先級分配信息獲取的任務,任務執行裝置獲取信息后,通過異步的方式由信息收集裝置進行采集并構成和更新信息隊列以供數據解析裝置進行分析,并將結果儲存至數據儲存裝置。多臺任務執行裝置不需要X86系統,可降低成本。本發明通過上述分布式系統管理多臺低成本任務執行裝置來抓取網絡上的信息。
附圖說明
通過參照附圖詳細描述其示例實施方式,本發明的上述和其它特征及優點將變得更加明顯。
圖1示出本發明第一實施例的分布式信息獲取系統的結構示意圖;以及
圖2示出本發明第一實施例的分布式信息獲取方法的流程圖。
具體實施方式
現在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應被理解為限于在此闡述的實施方式;相反,提供這些實施方式使得本發明將全面和完整,并將示例實施方式的構思全面地傳達給本領域的技術人員。
圖1示出本發明第一實施例的分布式信息獲取系統的結構示意圖。分布式信息獲取系統包括多個請求生成裝置102、多個任務管理裝置104、多個任務執行裝置106、一個信息收集裝置108、多個數據解析裝置112以及一個數據儲存裝置114。多個請求生成裝置102與多個任務管理裝置104連接通訊。多個任務管理裝置104與多個任務執行裝置106連接通訊。多個任務執行裝置106與一個信息收集裝置108連接通訊。信息收集裝置108與多個數據解析裝置112連接通訊。多個數據解析裝置112與一個數據儲存裝置114連接通訊。其中,各裝置之間的連接方式可以是有線連接或者無線連接,無線連接的方式包括有紅外連接、藍牙連接、局域網連接、互聯網連接等。各裝置之間的通訊優選地,使用HTTP協議。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于精碩世紀科技(北京)有限公司,未經精碩世紀科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410371132.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:半潛式平臺桅桿的構造方法
- 下一篇:一種基于視頻監控數據的寫入方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





