[發明專利]一種多類型批量數據處理系統及其處理方法有效

申請號：	201710822561.3	申請日：	2017-09-13
公開（公告）號：	CN110019153B	公開（公告）日：	2022-03-04
發明（設計）人：	聶妍	申請（專利權）人：	北京宸信征信有限公司
主分類號：	G06F16/215	分類號：	G06F16/215;G06F16/25
代理公司：	北京康思博達知識產權代理事務所(普通合伙) 11426	代理人：	范國鋒;劉冬梅
地址：	100036 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種類型批量數據處理系統及其處理方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種采用多類型批量數據處理系統進行多類型批量數據的處理方法，其特征在于，

所述數據處理系統包括：

原始數據文件部(001)，用于存放待處理的多類型批量數據文件；

數據文件格式轉換部(002)，用于對原始數據文件部(001)中的批量數據文件進行格式轉換和路徑轉換；

數據文件分類轉換部(003)，用于對經數據文件格式轉換部(002)轉換后的批量數據文件進行分類，將文件分為可處理數據文件和不可處理數據文件；和

數據文件結構化處理部(004)，用于對得到的可處理數據文件進行結構化處理，得到可結構化存儲的數據文件；

所述數據文件格式轉換部(002)包括：

數據文件格式轉換模塊(021)，用于對原始數據文件部(001)中的數據文件進行格式轉換；

數據文件路徑轉換模塊(022)，用于對數據文件格式轉換模塊(021)轉換格式后的數據文件進行路徑轉換；和

數據文件去重轉換模塊(023)，用于對路徑轉換后的數據文件進行去重處理，判斷存儲的數據文件是否為重復的數據文件，并對重復的數據文件進行處理和過濾；

所述數據文件分類轉換部(003)包括：

數據文件分類模塊(033)，用于對經數據文件格式轉換部(002)處理后的數據文件進行分類處理，分為可處理數據文件和不可處理數據文件；

可處理文件模塊(031)，用于存儲文件數據分類模塊(033)得到的可處理數據文件，即可結構化處理的數據文件；和

不可處理文件模塊(032)，用于存儲文件數據分類模塊(033)得到的不可處理數據文件，即不可結構化處理的數據文件；

所述系統還包括數據清洗處理部(005)和數據主題存儲部(006)，其中，所述數據清洗處理部(005)用于對得到的可結構化存儲的數據文件進行清洗處理；所述數據主題存儲部(006)用于對清洗處理后的數據文件進行分類并存儲；

所述數據清洗處理部(005)包括數據內容規則模塊(051)和數據存儲規則模塊(052)，其中：所述數據內容規則模塊(051)用于檢驗數據內容是否合規，并對不合規數據進行數據清洗，即標記為不合規數據或刪除；所述數據存儲規則模塊(052)用于檢驗單行和/或多行數據的內容與所在列是否對應，檢驗數據是否存在空白行數據，并將這些數據標記為不合規數據或刪除；

所述數據主題存儲部(006)包括數據主題庫(061)和數據分類記錄組件(062)，其中：所述數據主題庫(061)用于對數據清洗處理部(005)清洗后的數據文件按不同主題劃分入不同的主題庫中；所述數據分類記錄組件(062)用于對數據主題庫(061)生成的主題分類進行記錄；

所述方法包括以下步驟：

步驟1、利用數據文件格式轉換部(002)對原始數據文件部(001)中的數據文件進行格式轉換；

步驟2、利用數據文件分類轉換部(003)對數據文件格式轉換部(002)處理的數據文件進行分類處理，并儲存；

步驟3、利用數據文件結構化處理部(004)對步驟2的可處理文件類型進行結構化處理，得到可結構化存儲的數據文件；

步驟4、利用數據清洗處理部(005)對得到的可結構化存儲的數據文件進行清洗處理；

步驟5、利用數據主題存儲部(006)根據數據文件的主題進行分類并存儲；

其中，原始數據文件部(001)內的數據文件為多類型批量數據文件，包括EXCEL文件、SQL腳本文件以及含有CSV、TXT的文本文件；

步驟1包括以下子步驟：步驟1.1、利用數據文件格式轉換模塊(021)對原始數據文件部(001)中的數據文件進行格式轉換；

步驟1.2、利用文件路徑轉換模塊(022)對轉換格式后的數據文件進行數據文件路徑的轉換，優選將多種子文件夾中的數據文件提取到主目錄下；

步驟1.3、利用數據文件去重轉換模塊(023)對路徑轉換后的數據文件進行去重處理，判斷存儲的數據文件是否為重復的數據文件，并對其進行處理和過濾；

在步驟1.1中，所述格式轉換如下進行：將原始壓縮的數據文件進行解壓縮處理，并將無法解壓縮處理的數據文件標記為不合規數據文件或刪除；判斷統一子文件目錄中的數據文件是否為拆分文件，并將拆分的文本格式數據文件合并還原為原始的數據文件；判斷是否存在錯誤的文件后綴，并將判斷為錯誤文件后綴的數據文件標記為不合規數據文件或刪除；

在步驟1.2中，步驟1.2包括以下子步驟：

步驟1.2.1、將多種子文件夾中的數據文件提取到主目錄下；

步驟1.2.2、在提取后刪除冗余的多重子文件夾；

步驟1.2.3、將無法移動或無法操作的數據文件標記為不合規數據文件或刪除；

在步驟1.3中，根據數據文件名稱和大小進行去重處理，或根據數據文件內容進行去重處理；根據數據文件名稱和大小判斷，數據文件名稱內容相同和/或相似，并且存儲大小相同和/或相似的數據文件或數據文件集判斷為重復數據文件，標記為不合規數據文件或刪除；根據數據文件內容判斷，如果數據文件內容前10行數據完全相同，并且存儲大小相同和/或相似的數據文件或數據文件集判斷，則為重復數據文件，標記為不合規數據文件或刪除；

步驟2包括以下子步驟：

步驟2.1、利用數據文件分類模塊(033)對數據文件格式轉換部(002)處理后的數據文件進行分類處理，分為可處理數據文件和不可處理數據文件；

步驟2.2、采用可處理文件類型模塊(031)對得到的可處理數據文件進行存儲；

步驟2.3、采用不可處理文件類型模塊(032)對得到的不可處理數據文件進行存儲；

其中，所述可處理數據文件即可結構化處理的數據文件，包括excl文件、數據庫導出文件、文本文件和SQL腳本文件，所述不可處理數據文件包括word文件、PDF文件、音頻文件和視頻文件；

步驟4包括以下子步驟：

步驟4.1、利用數據內容規則模塊(051)檢驗數據內容是否合規，并對不合規數據進行數據清洗，即標記為不合規數據或刪除；

步驟4.2、利用數據存儲規則模塊(052)檢驗單行和/或多行數據的內容與其所在列是否對應；

步驟4.3、檢驗數據是否存在空白行數據，并將這些數據標記為不合規數據或刪除；

步驟5包括以下子步驟：

步驟5.1、利用數據主題庫(061)對數據清洗處理部(005)清洗后的數據文件按不同主題劃分入不同的主題庫中；

步驟5.2、利用數據分類記錄組件(062)對數據主題庫(061)生成的主題分類進行記錄；