[發(fā)明專利]一種數(shù)據(jù)采集方法、裝置和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710860199.9 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN109542595B | 公開(公告)日: | 2023-02-24 |
| 發(fā)明(設計)人: | 熊羅凱 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 北京三友知識產(chǎn)權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù) 采集 方法 裝置 系統(tǒng) | ||
1.一種數(shù)據(jù)采集方法,其特征在于,應用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括主節(jié)點,多個子節(jié)點,以及數(shù)據(jù)庫,所述主節(jié)點和所述多個子節(jié)點均與所述數(shù)據(jù)庫通信連接,所述主節(jié)點和所述多個子節(jié)點之間是解耦的,所述方法包括:
所述主節(jié)點根據(jù)數(shù)據(jù)采集任務生成多個子任務;
所述主節(jié)點將所述多個子任務以及所述數(shù)據(jù)采集任務對應的待采集目標隊列存儲至所述數(shù)據(jù)庫中,以便所述多個子節(jié)點主動從所述數(shù)據(jù)庫獲取子任務及其對應的目標對象進行數(shù)據(jù)采集;其中,所述待采集目標隊列中記錄有待采集數(shù)據(jù)對應的目標對象;所述數(shù)據(jù)庫還用于對所述待采集目標隊列中的待采集據(jù)對應的目標對象進行去重。
2.根據(jù)權利要求1所述的方法,其特征在于,還包括:
所述主節(jié)點從所述數(shù)據(jù)庫讀取所述多個子任務被子節(jié)點處理的處理記錄。
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述待采集目標隊列包括待采集統(tǒng)一資源定位符URL隊列,所述待采集URL隊列中包括需要被采集數(shù)據(jù)的URL地址。
4.根據(jù)權利要求1或2所述的方法,其特征在于,存儲在所述數(shù)據(jù)庫的所述多個子任務具有與用戶標識之間的對應關系,所述用戶標識是發(fā)送數(shù)據(jù)采集參數(shù)的用戶的標識。
5.一種數(shù)據(jù)采集裝置,其特征在于,應用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括主節(jié)點,多個子節(jié)點,以及數(shù)據(jù)庫,所述主節(jié)點和所述多個子節(jié)點均與所述數(shù)據(jù)庫通信連接,所述主節(jié)點和所述多個子節(jié)點之間是解耦的,所述裝置包括生成單元和存儲單元:
所述生成單元,用于所述主節(jié)點根據(jù)數(shù)據(jù)采集任務生成多個子任務;
所述存儲單元,用于所述主節(jié)點將所述多個子任務以及所述數(shù)據(jù)采集任務對應的待采集目標隊列存儲至所述數(shù)據(jù)庫中,以便所述多個子節(jié)點主動從所述數(shù)據(jù)庫獲取子任務及其對應的目標對象進行數(shù)據(jù)采集;其中,所述待采集目標隊列中記錄有待采集數(shù)據(jù)對應的目標對象;所述數(shù)據(jù)庫還用于對所述待采集目標隊列中的待采集據(jù)對應的目標對象進行去重。
6.根據(jù)權利要求5所述的裝置,其特征在于,還包括讀取單元:
所述讀取單元,用于所述主節(jié)點從所述數(shù)據(jù)庫讀取所述多個子任務被子節(jié)點處理的處理記錄。
7.根據(jù)權利要求5或6所述的裝置,其特征在于,所述待采集目標隊列包括待采集統(tǒng)一資源定位符URL隊列,所述待采集URL隊列中包括需要被采集數(shù)據(jù)的URL地址。
8.根據(jù)權利要求5或6所述的裝置,其特征在于,存儲在所述數(shù)據(jù)庫的所述多個子任務具有與用戶標識之間的對應關系,所述用戶標識是發(fā)送數(shù)據(jù)采集參數(shù)的用戶的標識。
9.一種數(shù)據(jù)采集方法,其特征在于,應用于數(shù)據(jù)采集系統(tǒng),所述數(shù)據(jù)采集系統(tǒng)包括主節(jié)點,多個子節(jié)點以及數(shù)據(jù)庫,所述主節(jié)點和所述多個子節(jié)點均與所述數(shù)據(jù)庫通信連接,所述主節(jié)點和所述多個子節(jié)點之間是解耦的,目標子節(jié)點為所述多個子節(jié)點中的任意一個,所述方法包括:
所述目標子節(jié)點主動從所述數(shù)據(jù)庫中獲取子任務,所述子任務為所述主節(jié)點根據(jù)數(shù)據(jù)采集任務生成的多個子任務中未被處理的一個;
所述目標子節(jié)點根據(jù)所述數(shù)據(jù)采集任務對應的待采集目標隊列處理所述子任務,所述待采集目標隊列存儲在所述數(shù)據(jù)庫中,所述待采集目標隊列中記錄有待采集數(shù)據(jù)對應的目標對象;所述數(shù)據(jù)庫還用于對所述待采集目標隊列中的待采集據(jù)對應的目標對象進行去重。
10.根據(jù)權利要求9所述的方法,其特征在于,還包括:
所述目標子節(jié)點將根據(jù)處理所述子任務得到的待采集目標更新到所述待采集目標隊列中。
11.根據(jù)權利要求9所述的方法,其特征在于,還包括:
所述目標子節(jié)點將處理所述子任務的處理記錄對應保存到所述數(shù)據(jù)庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710860199.9/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





