[發明專利]一種支持擴展的模塊化大數據清理系統在審
| 申請號: | 201711239777.3 | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN110019160A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 祁建明;周峻松;徐繼峰;陳墩金 | 申請(專利權)人: | 廣州明領基因科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510610 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 共享模塊 字典 數據分析模塊 數據標準化 合并模塊 記錄匹配 清理系統 數據增強 大數據 模塊化 共享資源 過程描述 可擴展性 數據交互 數據清洗 支持系統 共享庫 獨立性 引入 | ||
1.一種支持擴展的模塊化大數據清理系統,其特征在于,所述系統包括:數據標準化模塊、規則及字典共享模塊、數據分析模塊、記錄匹配與合并模塊以及數據增強模塊;其中,所述數據標準化模塊、所述數據分析模塊、所述記錄匹配與合并模塊以及所述數據增強模塊均僅與所述規則及字典共享模塊直接進行數據交互;所述規則及字典共享模塊作為共享資源支持系統的各個功能模塊。
2.根據權利要求1所述的一種支持擴展的模塊化大數據清理系統,其特征在于,所述數據標準化模塊用于接收用戶輸入的原始數據,并通過用戶定義的規則或者字典將原始數據中特定屬性的數據轉變為統一的標準形式,使得數據更為規范。
3.根據權利要求1所述的一種支持擴展的模塊化大數據清理系統,其特征在于,所述數據分析模塊用于輸出處理后的結果數據,主要功能是根據用戶定義的模式對結構松散的原始數據進行分析,使之具有良好的粒度,成為結構性較強的數據。
4.根據權利要求1所述的一種支持擴展的模塊化大數據清理系統,其特征在于,所述數據增強模塊利用外部字典和規則,補充原始數據中不完整的數據及遺漏的字段,或以增加字段的方式添加額外的信息。
5.根據權利要求1所述的一種支持擴展的模塊化大數據清理系統,其特征在于,所述記錄匹配與合并模塊是系統中比較重要的模塊,主要負責匹配和合并兩個數據集中的記錄,或檢測并剔除同一個數據集中的相似重復記錄。
6.根據權利要求1所述的一種支持擴展的模塊化大數據清理系統,其特征在于,所述規則及字典共享模塊由規則與字典管理器子模塊與共享庫子模塊組成;其中,所述規則與字典管理器子模塊負責對字典、模式及規則等共享資源的定義與維護;所述共享庫子模塊中的數據由系統內建的或是用戶自定義的與應用相關的字典及規則組成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州明領基因科技有限公司,未經廣州明領基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711239777.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:針對不完整數據的大數據清洗方法
- 下一篇:基于信息熵理論的異常數據清洗方法





