[發明專利]基于分布式網絡爬蟲的地理空間數據獲取系統及方法有效
| 申請號: | 202110640002.7 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113254747B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 杜志強;咼維 | 申請(專利權)人: | 南京北斗創新應用科技研究院有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9537;G06F16/29;G06F16/25;G06F9/50 |
| 代理公司: | 南京創略知識產權代理事務所(普通合伙) 32358 | 代理人: | 閆方圓 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 網絡 爬蟲 地理 空間 數據 獲取 系統 方法 | ||
本發明公開了一種基于分布式網絡爬蟲的地理空間數據獲取系統及方法,系統包括用戶需求發布模塊、調度引擎服務模塊、可執行爬蟲程序集模塊、HTCondor集群模塊和分布式爬蟲數據庫模塊,通過網絡爬蟲的方式進行互聯網空間信息采集,抽取出目標數據及時存入數據庫中,可以為對泛在地理空間數據進行進一步的管理使用提供了數據基礎。清楚各種來源數據的特點和共同之處。通過歸類總結不同類型數據、不同來源數據的獲取方法,針對重要的泛在地理空間數據源設計定制化的數據獲取應用,并將其融合到分布式爬蟲框架中進行綜合調度管理,可以實現良好的泛在數據獲取效果。
技術領域
本發明涉及數據挖掘技術領域,具體涉及一種基于分布式網絡爬蟲的地理空間數據獲取系統及方法。
背景技術
空間信息在過去是依賴專業人員通過專業工具測量的方式獲取,而隨著互聯網、物聯網等技術的發展,任何人都可以通過手機等個人設備快捷獲取、并共享空間位置信息。這種智能、實時、高效的地理情境感知式的“全民測繪”體現了泛在地理信息服務的特征,讓我們進入了泛在測繪的時代。泛在地理空間信息由空間信息和泛在測繪的概念拓展而來,指無處不在的地理空間信息,既包括專業測繪數據,也包括互聯網上各類垂直網站、社交媒體中帶有地理位置信息的視頻流、文章等主題信息,以及人們使用智能手機共享的地理位置相關信息。
公開互聯網環境下的信息搜集,是獲取泛在地理空間信息的重要途徑之一。由于互聯網環境下數據種類多樣、來源廣泛,如何高效快速地從公開互聯網獲取各類泛在地理空間信息成為一個重要問題。
當前,網絡爬蟲是一種可以自動在網絡上遍歷網頁查找信息的技術,它可以輔助相關人員從目標數據源站點定向爬取數據。網絡爬蟲的基礎工作邏輯是從一個鏈接請求開始,在固定的目標網站上進行精準的數據搜集,之后通過網絡協議獲取網頁加載結果,解析頁面內容并抽取出有效數據鏈接,再以循環迭代的方式完成對整個數據網絡的遍歷訪問。
因此,如何通過網絡爬蟲的方式進行互聯網空間信息采集,抽取出目標數據及時存入數據庫中,為對泛在地理空間數據進行進一步的管理使用提供了數據基礎,是當前需要解決的問題。
發明內容
本發明的目的是克服如何通過網絡爬蟲的方式獲取地理空間數據的問題。本發明的基于分布式網絡爬蟲的地理空間數據獲取系統及方法,能夠支持對多源異構web互聯網站點的地理空間數據進行分布式獲取,支持納管多類型的單機地理空間爬蟲應用;通過獨有的調度引擎機制,充分利用分布式集群環境下的多機計算資源,調用單體爬蟲應用來進行并行的數據獲取,從而能夠提高數據獲取效率,具有良好的應用前景。
為了達到上述目的,本發明所采用的技術方案是:
一種基于分布式網絡爬蟲的地理空間數據獲取系統,包括用戶需求發布模塊、調度引擎服務模塊、可執行爬蟲程序集模塊、HTCondor集群模塊和分布式爬蟲數據庫模塊,
所述用戶需求發布模塊,用于支持用戶在選擇獲取數據的類型、設置獲取數據的時空范圍,配置數據抓取的周期參數,并編輯完成后提交調度引擎服務模塊,并由調度引擎服務模塊將用戶需求保存分布式爬蟲數據庫模塊;
所述調度引擎服務模塊,用于接收用戶需求,并將用戶需求拆解為可執行的爬蟲子任務,同時支持向HTCondor集群模塊提交爬蟲任務,并監控爬蟲任務的執行狀態,對不同的任務狀態做出針對性的響應操作;
所述可執行爬蟲程序集模塊,用于執行各類數據的任務拆分、數據源解析、數據抓取、數據下載入數據庫的過程,并由各個定制化的爬蟲小程序來完成,將定制化爬蟲程序集合在一起,構成可執行程序集,便于可執行爬蟲程序集模塊分發任務提交HTCondor集群模塊執行;
所述HTCondor集群模塊,用于將當前提交的所有爬蟲子任務,有序分配到符合爬蟲程序資源要求的計算機節點下執行,執行結果通過分布式爬蟲數據庫模塊輸出到指定路徑下,具體是通過一個任務提交節點、一個中央管理節點匹配若干個任務執行節點的配置,該任務提交節點可同時為中央管理節點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京北斗創新應用科技研究院有限公司,未經南京北斗創新應用科技研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110640002.7/2.html,轉載請聲明來源鉆瓜專利網。





