[發明專利]一種多類型批量數據處理系統及其處理方法有效
| 申請號: | 201710822561.3 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN110019153B | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 聶妍 | 申請(專利權)人: | 北京宸信征信有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 范國鋒;劉冬梅 |
| 地址: | 100036 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 類型 批量 數據處理系統 及其 處理 方法 | ||
本發明公開了一種多類型批量數據處理系統與處理方法,其中,所述系統包括原始數據文件部、數據文件格式轉換部、數據文件分類轉換部、數據文件結構化處理部、數據清洗處理部和數據主題存儲部。所述方法如下:1、利用數據文件格式轉換部對原始數據文件部中的數據文件進行格式轉換;2、利用數據文件分類轉換部對數據文件格式轉換部處理的數據文件進行分類處理,并儲存;3、利用數據文件結構化處理部對步驟2的可處理文件類型進行結構化處理;4、利用數據清洗處理部對結構化后的數據文件進行清洗處理;5、利用數據主題存儲部根據數據文件的主題進行分類并存儲。本發明所述系統或方法簡單,可以在短時間內實現對多類型、批量數據文件進行處理。
技術領域
本發明涉及數據處理領域,尤其涉及多類型批量數據的處理,特別地,涉及一種多類型批量數據處理系統及其處理方法。
背景技術
互聯網信息時代的來臨和大數據技術出現造成了前所未有的數據洪流。眾多利益相關者期盼數據可以共享數據互換獲取,但不同的數據存儲方式,不同的數據結構和眾多的數據來源極大的阻礙了數據交流的進程。
數據存儲入庫前必須要進行清洗工作,但是目前數據清洗工作仍以人工清洗為主,存在著耗時耗力,效率低下,差異巨大等突出問題,而且人為操作很難形成標準,有可能造成數據二次污染。尤其是多類型(復雜)批量數據,如果進行人工處理,則會嚴重耗時耗力,并且會導致數據無法實現快速、高效應用,數據應用價值密度過低,且極大的阻礙了數據交換共享、快速應用的進程。
發明內容
為了克服上述問題,本發明人進行了銳意研究,得到一種多類型批量數據處理系統及其處理方法,從而完成本發明。
本發明一方面提供了一種多類型批量數據處理系統,具體體現在以下方面:
(1)一種多類型批量數據處理系統,其特征在于,所述系統包括
原始數據文件部001,用于存放需要處理的多類型批量數據文件;
數據文件格式轉換部002,用于對原始數據文件部001中的批量數據文件進行格式路徑轉換;
數據文件分類轉換部003,用于對數據文件格式轉換部002轉換后的批量數據文件進行分類,分為可處理文件類型文件集和不可處理文件類型文件集;和
數據文件結構化處理部004,用于對得到的可處理文件類型進行結構化處理,得到可結構化存儲的數據文件。
(2)根據上述(1)所述的數據處理系統,其特征在于,所述系統還包括數據清洗處理部005和數據主題存儲部006,其中,所述數據清洗處理部005用于對得到的可結構化存儲的數據文件進行清洗處理;所述數據主題存儲部006用于對清洗處理后的數據進行分類并存儲。
本發明另一方面提供了一種多類型批量數據的處理方法,具體體現在以下方面:
(3)一種多類型批量數據的處理方法,優選采用權利要求1至5之一所述系統進行,其中,所述方法包括以下步驟:
步驟1、利用數據文件格式轉換部002對原始數據文件部001中的數據文件進行格式轉換;
步驟2、利用數據文件分類轉換部003對數據文件格式轉換部002處理的數據文件進行分類處理,并儲存;
步驟3、利用數據文件結構化處理部004對步驟2的可處理文件類型進行結構化處理,得到可結構化存儲的數據文件;
步驟4、利用數據清洗處理部005對得到的可結構化存儲的數據文件進行清洗處理;
步驟5、利用數據主題存儲部006根據數據文件的主題進行分類并存儲。
附圖說明
圖1示出本發明所述系統的框架示意圖;
圖2示出本發明所述方法的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京宸信征信有限公司,未經北京宸信征信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710822561.3/2.html,轉載請聲明來源鉆瓜專利網。





