[發(fā)明專利]基于分布式網(wǎng)絡(luò)爬蟲的地理空間數(shù)據(jù)獲取系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110640002.7 | 申請(qǐng)日: | 2021-06-09 |
| 公開(公告)號(hào): | CN113254747B | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計(jì))人: | 杜志強(qiáng);咼維 | 申請(qǐng)(專利權(quán))人: | 南京北斗創(chuàng)新應(yīng)用科技研究院有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/9537;G06F16/29;G06F16/25;G06F9/50 |
| 代理公司: | 南京創(chuàng)略知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32358 | 代理人: | 閆方圓 |
| 地址: | 210000 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分布式 網(wǎng)絡(luò) 爬蟲 地理 空間 數(shù)據(jù) 獲取 系統(tǒng) 方法 | ||
1.基于分布式網(wǎng)絡(luò)爬蟲的地理空間數(shù)據(jù)獲取系統(tǒng),其特征在于:包括用戶需求發(fā)布模塊、調(diào)度引擎服務(wù)模塊、可執(zhí)行爬蟲程序集模塊、HTCondor集群模塊和分布式爬蟲數(shù)據(jù)庫模塊,
所述用戶需求發(fā)布模塊,用于支持用戶在選擇獲取數(shù)據(jù)的類型、設(shè)置獲取數(shù)據(jù)的時(shí)空范圍,配置數(shù)據(jù)抓取的周期參數(shù),并編輯完成后提交調(diào)度引擎服務(wù)模塊,并由調(diào)度引擎服務(wù)模塊將用戶需求保存分布式爬蟲數(shù)據(jù)庫模塊;
所述調(diào)度引擎服務(wù)模塊,用于接收用戶需求,并將用戶需求拆解為可執(zhí)行的爬蟲子任務(wù),同時(shí)支持向HTCondor集群模塊提交爬蟲任務(wù),并監(jiān)控爬蟲任務(wù)的執(zhí)行狀態(tài),對(duì)不同的任務(wù)狀態(tài)做出針對(duì)性的響應(yīng)操作;
所述可執(zhí)行爬蟲程序集模塊,用于執(zhí)行各類數(shù)據(jù)的任務(wù)拆分、數(shù)據(jù)源解析、數(shù)據(jù)抓取、數(shù)據(jù)下載入數(shù)據(jù)庫的過程,并由各個(gè)定制化的爬蟲小程序來完成,將定制化爬蟲程序集合在一起,構(gòu)成可執(zhí)行程序集,便于可執(zhí)行爬蟲程序集模塊分發(fā)任務(wù)提交HTCondor集群模塊執(zhí)行;
所述HTCondor集群模塊,用于將當(dāng)前提交的所有爬蟲子任務(wù),有序分配到符合爬蟲程序資源要求的計(jì)算機(jī)節(jié)點(diǎn)下執(zhí)行,執(zhí)行結(jié)果通過分布式爬蟲數(shù)據(jù)庫模塊輸出到指定路徑下,具體是通過一個(gè)任務(wù)提交節(jié)點(diǎn)、一個(gè)中央管理節(jié)點(diǎn)匹配若干個(gè)任務(wù)執(zhí)行節(jié)點(diǎn)的配置,該任務(wù)提交節(jié)點(diǎn)可同時(shí)為中央管理節(jié)點(diǎn);
所述分布式爬蟲數(shù)據(jù)庫模塊,包括任務(wù)數(shù)據(jù)庫、去重?cái)?shù)據(jù)庫,所述任務(wù)數(shù)據(jù)庫,用于負(fù)責(zé)存儲(chǔ)用戶需求配置信息和爬蟲任務(wù)的狀態(tài)記錄信息;所述去重?cái)?shù)據(jù)庫,用于存儲(chǔ)各類定制化爬蟲程序,且保存爬蟲獲取抓取數(shù)據(jù)的唯一標(biāo)識(shí)鍵值對(duì)信息,輔助爬蟲進(jìn)行數(shù)據(jù)抓取時(shí)的元數(shù)據(jù)比對(duì),去重?cái)?shù)據(jù)庫已有的數(shù)據(jù)爬蟲將不再重復(fù)爬取。
2.根據(jù)權(quán)利要求1所述的基于分布式網(wǎng)絡(luò)爬蟲的地理空間數(shù)據(jù)獲取系統(tǒng),其特征在于:所述用戶需求發(fā)布模塊,用于支持用戶在選擇獲取數(shù)據(jù)的類型、設(shè)置獲取數(shù)據(jù)的時(shí)空范圍,配置數(shù)據(jù)抓取的周期參數(shù),具體為:
數(shù)據(jù)的類型為GE影像,其的支持用戶配置包括空間范圍:經(jīng)緯度矩形范圍; 層級(jí)范圍:瓦片切割層級(jí);時(shí)間范圍:影像發(fā)布年限范圍;下載周期:可設(shè)置一次性抓取或按指定頻率循環(huán)抓取,
數(shù)據(jù)的類型為鴿群衛(wèi)星影像,其的支持用戶配置包括空間范圍:經(jīng)緯度矩形范圍;層級(jí)范圍:瓦片切割層級(jí);數(shù)據(jù)來源:可多選,為10個(gè)影像源;下載周期:可設(shè)置一次性抓取或按指定頻率循環(huán)抓取,
數(shù)據(jù)的類型為AIS船舶動(dòng)態(tài)數(shù)據(jù),其的支持用戶配置包括空間范圍:經(jīng)緯度矩形范圍;時(shí)間范圍:船舶行駛軌跡的時(shí)間范圍;精準(zhǔn)監(jiān)測(cè):可輸入船舶id、或船舶名稱;下載周期:可設(shè)置一次性抓取或按指定頻率循環(huán)抓取,
數(shù)據(jù)的類型為水深測(cè)量重磁力數(shù)據(jù)其的支持用戶配置包括空間范圍:經(jīng)緯度矩形范圍;層級(jí)范圍:瓦片切割層級(jí);下載周期:可設(shè)置一次性抓取或按指定頻率循環(huán)抓取。
3.根據(jù)權(quán)利要求2所述的基于分布式網(wǎng)絡(luò)爬蟲的地理空間數(shù)據(jù)獲取系統(tǒng),其特征在于:所述調(diào)度引擎服務(wù)模塊,包括用戶需求管理單元、任務(wù)分割單元、HTCondor作業(yè)提交單元和HTCondor任務(wù)監(jiān)控單元,
所述用戶需求管理單元,用于任務(wù)調(diào)度引擎響應(yīng)用戶在前端提交的數(shù)據(jù)獲取需求,將需求保存入分布式爬蟲數(shù)據(jù)庫模塊,并在對(duì)應(yīng)需求在整個(gè)爬蟲任務(wù)調(diào)度執(zhí)行過程中的狀態(tài)進(jìn)行同步更新和維護(hù);
所述任務(wù)分割單元,用于任務(wù)調(diào)度引擎根據(jù)用戶提交需求中的配置信息,驅(qū)動(dòng)對(duì)應(yīng)的爬蟲程序完成子任務(wù)分割,并將分割生成的子任務(wù)保存入分布式爬蟲數(shù)據(jù)庫模塊;
所述HTCondor作業(yè)提交單元,用于任務(wù)調(diào)度引擎從分布式爬蟲數(shù)據(jù)庫模塊中讀取未提交任務(wù),并驅(qū)動(dòng)HTCondor集群模塊內(nèi)的節(jié)點(diǎn)來完成任務(wù)的提交,該過程已HTCondor集群模塊分配該作業(yè)執(zhí)行節(jié)點(diǎn)為終點(diǎn);
所述HTCondor任務(wù)監(jiān)控單元,用于在爬蟲任務(wù)創(chuàng)建后,任務(wù)調(diào)度引擎輪詢HTCondor集群模塊作業(yè)狀態(tài),并根據(jù)HTCondor集群模塊下對(duì)應(yīng)每個(gè)任務(wù)的狀態(tài)、進(jìn)度更新對(duì)應(yīng)數(shù)據(jù)庫記錄,并對(duì)異常狀態(tài)進(jìn)行對(duì)應(yīng)處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京北斗創(chuàng)新應(yīng)用科技研究院有限公司,未經(jīng)南京北斗創(chuàng)新應(yīng)用科技研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110640002.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 檢測(cè)反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





