[發明專利]一種數據處理方法在審

申請號：	201710418048.8	申請日：	2017-06-06
公開（公告）號：	CN107301210A	公開（公告）日：	2017-10-27
發明（設計）人：	郝波;柯炯亮	申請（專利權）人：	福建中經匯通有限責任公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	361000 福建省廈***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數據處理方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及數據處理領域，更具體的，涉及一種數據清洗處理方法。

背景技術

隨著數據挖掘領域的研究日益成熟,人們對數據質量的要求也越來越高。但是因為數據倉庫中存在著很多冗余的或缺失的數據,以及存在不一致數據或不確定數據,導致數據質量下降,我們把這些影響數據質量的數據稱為“臟數據”。根據“垃圾進,垃圾出”的原理,臟數據將會影響數據挖掘的質量,使得決策分析系統得到錯誤的分析結果,最終誤導決策,影響決策者預測和決策的準確性。除此之外,臟數據還會導致昂貴的操作費用和漫長的響應時間。因此我們必須對臟數據進行清洗。大量的研究發現,數據清洗在決策分析和數據挖掘系統中所占的工作量幾乎是整個工作量的到。

在基于歷史數據的數據倉庫的基礎上為企業的發展進行指導和預測時，數據的質量問題變得非常關鍵。根據“垃圾進，垃圾出”原理，數據倉庫中的數據經常會存在數據缺失、數據噪聲、數據不一致和數據冗余等質量問題。這些存在質量問題的污點數據往往會導致漫長的響應時間和昂貴的操作費用，并且會影響到從數據中導出規則的導出準確性和從數據中挖掘隱藏信息的挖掘模式的正確性，進而使決策支持系統產生誤導決策。

企業對存在質量問題的污點數據處理的需求與日俱增，對數據清洗的要求也越來越高。在傳統的污點數據清洗工作中，主要還是依賴人工對不同數據庫中的數據進行人工處理。這樣的數據清洗方式不僅會耗費大量的時間，而且由于不可控因素太多，數據清洗的錯誤率也會增加，導致數據質量的提高程度不高、可靠性不強。

在大數據領域，數據的來源往往是不確定的，而針對一個數據庫的系統而言，其獲取的數據可能是格式多樣的，而且這些數據來源很可能也是“臟數據”，對于整個的系統并沒有用戶，反而會帶來數據庫的存儲壓力和處理器的處理壓力。所以能設計一種針對數據來源進行格式統一，并清洗垃圾數據的方法是亟不可待的。

發明內容

本發明旨在至少解決現有技術中存在的技術問題之一。

為此，本發明的目的在于，通過設計一種數據處理方法,該方法利用關鍵字段字符的區位碼對數據集進行排序及分組,提高了算法的運行效率和檢測精度。并且通過特征字段優選方法選出分組中具有代表性的字段,刪除無關字段,減少了相似重復記錄檢測時的字段匹配次數,進而減少了記錄匹配的運行時間。能夠有效地解決大數據量的相似重復記錄檢測問題。

為實現上述目的，本發明提供一種數據處理方法，包括如下步驟：

步驟1，對所要清洗的數據源進行數據分析，定義出數據清洗規則,并選擇預設的清洗算法；

步驟2，根據規則庫中定義好的或用戶自定義的清洗規則對數據進行預處理，將數據轉換成統一的預設的數據格式；

步驟3，根據預設的數據清理算法對數據中的相似重復記錄、異常數據和不完整數據進行檢測；

步驟4，根據清理算法和規則庫中定義的清理規則對所述相似重復記錄、異常數據和不完整數據進行數據清理；

步驟5，將清理后的數據反饋至用戶端，獲取用戶端的反饋信息，根據所述反饋信息確定是否重新進行數據清洗步驟。

具體的，所述相似重復記錄的檢測步驟如下：

步驟1.1，選取數據的關鍵字段，計算關鍵字段的字符區位碼，利用所述字符區位碼對數據進行排序，對所述排序后的數據進行分組，形成小數據集；

步驟1.2，對所述小數據集進行特征優選計算，計算出代表性的字段，然后刪除其他無關字段；

步驟1.3，利用字段加權匹配算法對所述小數據集檢測重復記錄，并對重復記錄進行標記；

步驟1.4，將所述檢測出的重復記錄按照預設的規則輸出。

具體的，所述對所述排序后的數據進行分組具體步驟如下：

步驟2.1，將記錄中的關鍵字段或關鍵字段的某些位選取出來,并將其區位碼計算出來，如果所選出的是關鍵字段的某一位,則計算出該字符所對應的區位碼，如果所選出的的是關鍵字段的某幾位,則計算出這幾位所對應的區位碼的平均值，如果選出的是整個的關鍵字段,則將該字段所有字符的區位碼計算出來,并計算出這些字符的平均值；

步驟2.2，利用所選出字符的區位碼排序整個記錄集,使得可能的重復記錄排在相鄰區域；

對記錄的字符區位碼進行比較,如果記錄的區位碼是相等的,或記錄的區位碼的平均值相差不大,則將記錄聚集到一個數據集中,從而逐漸把大數據集分割成很多個不相交的小數據集；

步驟2.3，分組后如果還有比較大的數據集,則在該數據集中選取另外的關鍵字段繼續對該數據集進行分組；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于福建中經匯通有限責任公司，未經福建中經匯通有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710418048.8/2.html，轉載請聲明來源鉆瓜專利網。