[發明專利]一種多類型批量數據處理系統及其處理方法有效
| 申請號: | 201710822561.3 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN110019153B | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 聶妍 | 申請(專利權)人: | 北京宸信征信有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 范國鋒;劉冬梅 |
| 地址: | 100036 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 類型 批量 數據處理系統 及其 處理 方法 | ||
1.一種采用多類型批量數據處理系統進行多類型批量數據的處理方法,其特征在于,
所述數據處理系統包括:
原始數據文件部(001),用于存放待處理的多類型批量數據文件;
數據文件格式轉換部(002),用于對原始數據文件部(001)中的批量數據文件進行格式轉換和路徑轉換;
數據文件分類轉換部(003),用于對經數據文件格式轉換部(002)轉換后的批量數據文件進行分類,將文件分為可處理數據文件和不可處理數據文件;和
數據文件結構化處理部(004),用于對得到的可處理數據文件進行結構化處理,得到可結構化存儲的數據文件;
所述數據文件格式轉換部(002)包括:
數據文件格式轉換模塊(021),用于對原始數據文件部(001)中的數據文件進行格式轉換;
數據文件路徑轉換模塊(022),用于對數據文件格式轉換模塊(021)轉換格式后的數據文件進行路徑轉換;和
數據文件去重轉換模塊(023),用于對路徑轉換后的數據文件進行去重處理,判斷存儲的數據文件是否為重復的數據文件,并對重復的數據文件進行處理和過濾;
所述數據文件分類轉換部(003)包括:
數據文件分類模塊(033),用于對經數據文件格式轉換部(002)處理后的數據文件進行分類處理,分為可處理數據文件和不可處理數據文件;
可處理文件模塊(031),用于存儲文件數據分類模塊(033)得到的可處理數據文件,即可結構化處理的數據文件;和
不可處理文件模塊(032),用于存儲文件數據分類模塊(033)得到的不可處理數據文件,即不可結構化處理的數據文件;
所述系統還包括數據清洗處理部(005)和數據主題存儲部(006),其中,所述數據清洗處理部(005)用于對得到的可結構化存儲的數據文件進行清洗處理;所述數據主題存儲部(006)用于對清洗處理后的數據文件進行分類并存儲;
所述數據清洗處理部(005)包括數據內容規則模塊(051)和數據存儲規則模塊(052),其中:所述數據內容規則模塊(051)用于檢驗數據內容是否合規,并對不合規數據進行數據清洗,即標記為不合規數據或刪除;所述數據存儲規則模塊(052)用于檢驗單行和/或多行數據的內容與所在列是否對應,檢驗數據是否存在空白行數據,并將這些數據標記為不合規數據或刪除;
所述數據主題存儲部(006)包括數據主題庫(061)和數據分類記錄組件(062),其中:所述數據主題庫(061)用于對數據清洗處理部(005)清洗后的數據文件按不同主題劃分入不同的主題庫中;所述數據分類記錄組件(062)用于對數據主題庫(061)生成的主題分類進行記錄;
所述方法包括以下步驟:
步驟1、利用數據文件格式轉換部(002)對原始數據文件部(001)中的數據文件進行格式轉換;
步驟2、利用數據文件分類轉換部(003)對數據文件格式轉換部(002)處理的數據文件進行分類處理,并儲存;
步驟3、利用數據文件結構化處理部(004)對步驟2的可處理文件類型進行結構化處理,得到可結構化存儲的數據文件;
步驟4、利用數據清洗處理部(005)對得到的可結構化存儲的數據文件進行清洗處理;
步驟5、利用數據主題存儲部(006)根據數據文件的主題進行分類并存儲;
其中,原始數據文件部(001)內的數據文件為多類型批量數據文件,包括EXCEL文件、SQL腳本文件以及含有CSV、TXT的文本文件;
步驟1包括以下子步驟:步驟1.1、利用數據文件格式轉換模塊(021)對原始數據文件部(001)中的數據文件進行格式轉換;
步驟1.2、利用文件路徑轉換模塊(022)對轉換格式后的數據文件進行數據文件路徑的轉換,優選將多種子文件夾中的數據文件提取到主目錄下;
步驟1.3、利用數據文件去重轉換模塊(023)對路徑轉換后的數據文件進行去重處理,判斷存儲的數據文件是否為重復的數據文件,并對其進行處理和過濾;
在步驟1.1中,所述格式轉換如下進行:將原始壓縮的數據文件進行解壓縮處理,并將無法解壓縮處理的數據文件標記為不合規數據文件或刪除;判斷統一子文件目錄中的數據文件是否為拆分文件,并將拆分的文本格式數據文件合并還原為原始的數據文件;判斷是否存在錯誤的文件后綴,并將判斷為錯誤文件后綴的數據文件標記為不合規數據文件或刪除;
在步驟1.2中,步驟1.2包括以下子步驟:
步驟1.2.1、將多種子文件夾中的數據文件提取到主目錄下;
步驟1.2.2、在提取后刪除冗余的多重子文件夾;
步驟1.2.3、將無法移動或無法操作的數據文件標記為不合規數據文件或刪除;
在步驟1.3中,根據數據文件名稱和大小進行去重處理,或根據數據文件內容進行去重處理;根據數據文件名稱和大小判斷,數據文件名稱內容相同和/或相似,并且存儲大小相同和/或相似的數據文件或數據文件集判斷為重復數據文件,標記為不合規數據文件或刪除;根據數據文件內容判斷,如果數據文件內容前10行數據完全相同,并且存儲大小相同和/或相似的數據文件或數據文件集判斷,則為重復數據文件,標記為不合規數據文件或刪除;
步驟2包括以下子步驟:
步驟2.1、利用數據文件分類模塊(033)對數據文件格式轉換部(002)處理后的數據文件進行分類處理,分為可處理數據文件和不可處理數據文件;
步驟2.2、采用可處理文件類型模塊(031)對得到的可處理數據文件進行存儲;
步驟2.3、采用不可處理文件類型模塊(032)對得到的不可處理數據文件進行存儲;
其中,所述可處理數據文件即可結構化處理的數據文件,包括excl文件、數據庫導出文件、文本文件和SQL腳本文件,所述不可處理數據文件包括word文件、PDF文件、音頻文件和視頻文件;
步驟4包括以下子步驟:
步驟4.1、利用數據內容規則模塊(051)檢驗數據內容是否合規,并對不合規數據進行數據清洗,即標記為不合規數據或刪除;
步驟4.2、利用數據存儲規則模塊(052)檢驗單行和/或多行數據的內容與其所在列是否對應;
步驟4.3、檢驗數據是否存在空白行數據,并將這些數據標記為不合規數據或刪除;
步驟5包括以下子步驟:
步驟5.1、利用數據主題庫(061)對數據清洗處理部(005)清洗后的數據文件按不同主題劃分入不同的主題庫中;
步驟5.2、利用數據分類記錄組件(062)對數據主題庫(061)生成的主題分類進行記錄;
其中,在步驟5.1中,所述主題包括個人信息主題、企業信息主題、屬性主題。
2.根據權利要求1所述的方法,其特征在于,
在步驟4.1中,所述不合規數據包括:(1)除漢字、英文字母、阿拉伯數字、常用標點符號以外的字符,(2)亂碼字符,(3)數據中非空字段存在的空值,(4)數據存在所有列內容都重復,(5)數據存在關鍵列內容重復;
在步驟4.3中,所述空白行數據是指整行或整列為空白,沒有實際內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京宸信征信有限公司,未經北京宸信征信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710822561.3/1.html,轉載請聲明來源鉆瓜專利網。





