[發明專利]一種并行數據清洗系統在審
| 申請號: | 201611097365.6 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN108153747A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 安西民;林殷;徐鳳桐 | 申請(專利權)人: | 航天星圖科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 101399 北京市順義區國*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據清洗 并行數據 清洗系統 業務機 清洗 緩存 數據采集裝置 緩存服務器 并行處理 處理裝置 多數據源 海量數據 控制裝置 清洗能力 清洗裝置 業務需求 用戶服務 并行 數據庫 | ||
1.一種并行數據清洗系統,其特征在于,該系統包括多個數據源,多個數據采集裝置,緩存服務器,數據清洗裝置,數據庫,業務機;其中每個數據采集裝置用于對多個數據源進行數據采集,并將采集到的數據集合傳送到緩存服務器中,數據清洗裝置從緩存服務器獲取待處理數據,數據清洗裝置將清洗后的數據保存到數據庫中,不同的業務機從數據庫中獲取所需的清洗后數據;
數據源散落于互聯網中,數據采集裝置針對數據源的采集策略通過互聯網進行數據獲取,每個數據采集裝置用于固定的多個數據源的數據采集,多個數據采集裝置可以并行采集,從而加快數據采集到效率,數據采集裝置通過網絡連接到數據清洗裝置,從而可以通過緩存服務器與數據清洗裝置進行通信,并接受其管理;特定數據采集裝置采集到的數據除了需要標注數據源外,還需要標注采集單元的編號,數據清洗裝置對該采集單元的采集質量進行評定,并基于該采集編號進行評定反饋;
采集后的數據被保存在緩存服務器中,數據清洗裝置可以主動或者基于通知消息異步的進行數據獲取,緩存服務器可以用于對采集到的原始數據進行保存,從而對待清洗數據起到一個備份的作用,在清洗發生錯誤或者產生清洗數據丟失時,數據清洗裝置可以再次從緩存服務器獲取原始數據,通過緩存服務器的設置減輕了數據清洗裝置的存儲壓力,使得并行的數據采集成為可能;
數據清洗裝置用于基于當前數據清洗規則對獲取的待清洗數據進行清洗處理,管理用戶可以登錄數據清洗裝置進行清洗規則的設置和修改,從而實現針對特定管理用戶的個性化定制清洗;數據清洗裝置通過網絡對系統中的多個數據采集裝置,緩存服務器,數據庫進行管理;
數據庫用于對清洗后的數據進行保存和管理,業務機可以主動的或者基于通知異步的從數據庫中獲取所需數據;業務機進行數據獲取需要進行鑒權,從而保證了數據的安全性。
2.根據權利要求1所述的并行數據清洗系統,其特征在于,數據清洗裝置包括控制裝置、本地緩存和多個處理裝置。
3.根據權利要求2所述的并行數據清洗系統,其特征在于,多個處理裝置可以并行進行數據清洗,從而提高了清洗效率。
4.根據權利要求2所述的并行數據清洗系統,其特征在于,控制裝置用于進行任務分配,管理處理裝置,任務調度,用戶交互,業務機交互。
5.根據權利要求1所述的并行數據清洗系統,其特征在于,系統包括多個業務機,不同的業務機面向不同的業務需求和不同的用戶、面向相同業務需求的不同用戶、或面向相同的業務需求和相同的用戶。
6.根據權利要求5所述的并行數據清洗系統,其特征在于,多個業務機可以進行并行的數據獲取和任務下達。
7.根據權利要求1所述的并行數據清洗系統,其特征在于,每個數據采集裝置倍分配一個獨立的標識。
8.根據權利要求1所述的并行數據清洗系統,其特征在于,業務機基于自身的設備編號進行鑒權、或基于在網絡中的地址進行鑒權、或基于兩者的結合進行鑒權。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天星圖科技(北京)有限公司,未經航天星圖科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611097365.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種提供文檔服務的方法
- 下一篇:一種挖掘數據的前期準備方法





