[發明專利]一種并行計算場景下分布式數據集合計算方法和系統在審
| 申請號: | 202010650280.6 | 申請日: | 2020-07-08 |
| 公開(公告)號: | CN112559480A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 王清杰 | 申請(專利權)人: | 北京德風新征程科技有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/906;G06F16/951 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 101499 北京市懷*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 并行 計算 場景 分布式 數據 集合 計算方法 系統 | ||
本發明公開了一種并行計算場景下分布式數據集合計算方法和系統,尤其是一種并行計算場景下分布式數據集合計算系統,其特征在于,包括信息收集模塊、信息分類模塊、數據處理模塊和數據存儲模塊,所述信息收集模塊、信息分類模塊、數據處理模塊和數據存儲模塊依次連接,所述信息收集模塊包括信息抓取單元,所述信息分類模塊包括數據解析單元、數據過濾單元、數據去重單元和數據分類單元,數據解析單元、數據過濾單元、數據去重單元和數據分類單元依次連接。本發明能夠分別對不同類型的互聯網網站進行處理,能夠對互聯網上的數據做到全面、高效、多樣化的抓取,同時,能夠通過分布式數據計算效率。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種并行計算場景下分布式數據集合計算方法和系統。
背景技術
當前是一個互聯網的時代,互聯網深入到了人們的日常生活中,日常消費、生活習慣、個人愛好都在互聯網中留下了各種痕跡和數據,這樣就造成互聯網上留下了海量的待發掘的消費數據,對這些數據的分析和挖掘,獲取其中的關鍵業務信息,是至關重要的。
現有的分布式數據分析方法中,通過默認以文件或分布式文件系統中的數據塊作為分布式數據計算分析的最小執行單元,各個單元分別由一個計算單元計算,待所有計算單元數據計算完成后,對計算結果進行匯總,至此整個分布式計算完成。然而,現有的分布式數據計算效率較低,數據計算較為繁瑣。
發明內容
基于背景技術存在的技術問題,本發明提出了一種并行計算場景下分布式數據集合計算方法和系統。
本發明提出的一種并行計算場景下分布式數據集合計算系統,包括信息收集模塊、信息分類模塊、數據處理模塊和數據存儲模塊,所述信息收集模塊、信息分類模塊、數據處理模塊和數據存儲模塊依次連接,所述信息收集模塊包括信息抓取單元,所述信息分類模塊包括數據解析單元、數據過濾單元、數據去重單元和數據分類單元,數據解析單元、數據過濾單元、數據去重單元和數據分類單元依次連接,所述數據處理模塊包括中心調度單元、分布式計算單元和匯總單元,所述中心調度單元、分布式計算單元和匯總單元依次連接。
優選的,所述信息抓取單元用于收集互聯網網站信息,對互聯網網站信息進行整理,得到互聯網網站的特性信息數據,并將特性信息數據傳輸至信息分類模塊。
優選的,所述數據解析單元接收特征信息數據,并對特征信息數據進行數據解析,將特征信息數據解析成常用數據信息,并將解析后的數據信息傳輸至數據過濾單元。
優選的,所述數據過濾單元將對常用數據信息進行篩分,剔除無用數據信息,并將有用數據信息傳輸至數據去重單元。
優選的,所述數據去重單元將有用數據信息中重復數據信息進行剔除,得到精簡數據信息,并將精簡數據信息傳輸至數據分類單元。
優選的,所述數據分類單元用于將精簡數據信息根據不同數據類型進行分類,并將分類后的數據信息傳輸至數據處理模塊。
優選的,所述中心調度單元用于對數據信息進行分析和分配,分析后的數據信息進行數據的分配,并將分配的數據傳輸至分布式計算單元。
優選的,所述分布式計算單元用于對分配的數據信息進行計算處理,計算處理后的數據傳輸至匯總單元進行匯總處理,匯總后的數據傳輸至數據存儲模塊進行存儲。
一種并行計算場景下分布式數據集合計算方法,包括如下步驟:
S1信息收集:信息收集模塊包括信息抓取單元,信息抓取單元用于收集互聯網網站信息,對互聯網網站信息進行整理,得到互聯網網站的特性信息數據,并將特性信息數據傳輸至信息分類模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京德風新征程科技有限公司,未經北京德風新征程科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010650280.6/2.html,轉載請聲明來源鉆瓜專利網。





