[發明專利]一種基于多數據版本的混合數據清洗方法有效
| 申請號: | 201811628044.3 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109634949B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 高云君;陳剛;陳純;葛叢叢 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多數 版本 混合 數據 清洗 方法 | ||
本發明公開了一種基于多數據版本的混合數據清洗方法。本發明利用馬爾科夫邏輯網絡概率圖模型和最小化修復原則,將定性技術與定量技術結合到本發明中,設計高效的數據清洗方法,對錯誤的結構化數據進行檢測和修正,保證清洗結果既能夠對違反規則約束的臟數據進行清洗且滿足對數據集的改動代價最小,又能使其符合統計學特性。本發明先根據馬爾科夫邏輯索引技術將整個數據集劃分為塊和組,然后執行兩階段的數據清洗。第一階段通過引入可信度分數的評價標準,對每個組內的數據進行清洗以得到多版本的數據清洗結果;第二階段通過引入融合分數的評價標準,對前置階段產生的多版本結果進行融合,從而生成最終統一的清洗結果。
技術領域
本發明涉及計算機數據庫領域中對錯誤數據的清洗技術,特別是基于多數據版本的混合數據清洗方法。
背景技術
數據清洗的目的在于找到數據集中最有可能是錯誤數據的內容,并提供一個可靠的更正錯誤數據的方法。臟數據就是數據集中存在錯誤的數據。
如今,隨著以社交網絡、電子商務為代表的新型信息發布方式的不斷涌現,以及云計算、物聯網計算機技術的興起,數據正以前所未有的速度不斷地增長和累積,而在數據分析中,臟數據的存在不僅會導致錯誤的決定和不可靠的分析,還會對公司經濟造成打擊。因此,無論在工業界還是學術界,都產生了對數據清洗的濃厚興趣。數據清洗是對錯誤數據進行檢測和修復的過程,其目的在于刪除其中冗余信息,更正存在的錯誤信息,保持數據的一致性。
針對數據清洗方法,目前國內外學者已經做出了一些工作。目前主流的方法可以大致分為定性方法和定量方法兩類:(1)定性方法主要是清洗違反完整性約束規則的錯誤數據,其評價標準為最小代價原則,即要求清洗的代價對數據集的改動最小化,缺點在于它不能夠清洗不滿足最小代價原則的錯誤數據,盡管它仍然違反完整性約束;(2)定量方法是基于數據概率分布構建合適的模型從而決定清洗策略,其缺點在于此類方法強依賴于訓練集,需要提供足夠且干凈的已知數據作為訓練集從而構建可靠的模型,而這對于現在的大數據環境而言已不適用,目前絕大多數定量方法清洗得到的數據表現比定性方法差,并且現有方法運行時間較長。
發明內容
針對上述不足,本發明提供一種基于多數據版本的混合數據清洗方法,本發明的方法是將定性和定量結合的方法,既保證能夠對違反ICs的數據執行清洗,又使清洗結果符合統計特性。該方法基于馬爾科夫邏輯網絡,先根據馬爾科夫邏輯索引技術將整個數據集劃分為塊和組,然后再執行兩階段的數據清洗,其中第一階段對每個塊單獨執行數據清洗,得到多版本數據清洗結果;第二階段,基于多版本的數據結果,消除沖突,得到最終全局統一的清洗結果。馬爾科夫邏輯索引技術縮小了臟數據的檢測范圍,能夠高效地執行數據清洗。
為了達到上述目的,本發明所采用技術方案如下:一種基于多數據版本的混合數據清洗方法,該方法的步驟如下:
(1)獲取帶有臟數據集和相關的完整性約束規則(ICs);
(2)將不同類型的完整性約束規則轉化為馬爾科夫邏輯網絡標準化規則,并用臟數據集中各元組包含的常量將轉化后的標準化規則實例化,每個實例化規則被稱為數據片;
(3)對臟數據集建立馬爾科夫邏輯索引結構,先將臟數據集根據規則劃分為不同的數據塊,每個規則對應一個數據塊,每個數據塊中的最小單位為數據片,而后再將每個數據塊再次劃分為不同的數據組;
(4)在步驟(3)的基礎上,執行第一階段的清洗,引入可信度分數的評價標準,通過對每個數據組進行獨立清洗來得到多個初步清洗結果的數據版本;
(5)執行第二階段的清洗,引入融合分數的評價標準,對第一階段產生的多個初步清洗結果的數據版本進行融合,消除多版本間的沖突問題,從而生成最終統一的清洗結果;
(6)標記臟數據集中存在的重復條目,將經過上述兩階段清洗后仍存在的重復數據刪除;
(7)輸出數據清洗后的數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811628044.3/2.html,轉載請聲明來源鉆瓜專利網。





