[發(fā)明專利]一種基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法有效
| 申請?zhí)枺?/td> | 201811628044.3 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109634949B | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設計)人: | 高云君;陳剛;陳純;葛叢叢 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多數(shù) 版本 混合 數(shù)據(jù) 清洗 方法 | ||
1.一種基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法,其特征在于,該方法的步驟如下:
(1)獲取帶有臟數(shù)據(jù)集和相關的完整性約束規(guī)則(ICs);
(2)將不同類型的完整性約束規(guī)則轉化為馬爾科夫邏輯網(wǎng)絡標準化規(guī)則,并用臟數(shù)據(jù)集中各元組包含的常量將轉化后的標準化規(guī)則實例化,每個實例化規(guī)則被稱為數(shù)據(jù)片;
(3)對臟數(shù)據(jù)集建立馬爾科夫邏輯索引結構,先將臟數(shù)據(jù)集根據(jù)規(guī)則劃分為不同的數(shù)據(jù)塊,每個規(guī)則對應一個數(shù)據(jù)塊,每個數(shù)據(jù)塊中的最小單位為數(shù)據(jù)片,而后再將每個數(shù)據(jù)塊再次劃分為不同的數(shù)據(jù)組;
(4)在步驟(3)的基礎上,執(zhí)行第一階段的清洗,引入可信度分數(shù)的評價標準,通過對每個數(shù)據(jù)組進行獨立清洗來得到多個初步清洗結果的數(shù)據(jù)版本;
(5)執(zhí)行第二階段的清洗,引入融合分數(shù)的評價標準,對第一階段產生的多個初步清洗結果的數(shù)據(jù)版本進行融合,消除多版本間的沖突問題,從而生成最終統(tǒng)一的清洗結果;
(6)標記臟數(shù)據(jù)集中存在的重復條目,將經(jīng)過上述兩階段清洗后仍存在的重復數(shù)據(jù)刪除;
(7)輸出數(shù)據(jù)清洗后的數(shù)據(jù)集。
2.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法,其特征在于:所述步驟(2)具體為:
(2.1)將輸入的不同類型的完整性約束通過合取范式轉化規(guī)則標準化為馬爾科夫邏輯網(wǎng)絡規(guī)則;
(2.2)將標準化后的規(guī)則中的所有變量用數(shù)據(jù)集的相應常量代替。
3.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法,其特征在于:所述步驟(3)具體為:
(3.1)根據(jù)臟數(shù)據(jù)集所包含的完整性約束規(guī)則將整個臟數(shù)據(jù)集劃分為多個數(shù)據(jù)塊,每個規(guī)則對應一個數(shù)據(jù)塊,每個數(shù)據(jù)塊中包含若干個數(shù)據(jù)片;
(3.2)在每個數(shù)據(jù)塊中,將屬性中含有相同關鍵字的條目分為同一個組;其中關鍵字為規(guī)則的原因項,具有相同原因的數(shù)據(jù)片被劃分為一組。
4.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法,其特征在于:所述的步驟(4)具體為:
(4.1)處理異常數(shù)據(jù):將由于數(shù)據(jù)錯誤出現(xiàn)在原因項而導致其對應的數(shù)據(jù)片被劃分到不正確組中的現(xiàn)象稱為“異常”,然后將這些錯誤的數(shù)據(jù)片重新劃分到對應的組中;
(4.2)根據(jù)相似度距離度量方法和馬爾科夫邏輯網(wǎng)絡權重學習方法計算每個組內異常數(shù)據(jù)的可信度分數(shù)(reliability score);
(4.3)獨立清洗每個數(shù)據(jù)組:清洗單位為數(shù)據(jù)塊中的每個組,選擇可信度分數(shù)最大的數(shù)據(jù)片γ作為替換的基準,利用這個數(shù)據(jù)將屬于同個數(shù)據(jù)組中的其它存疑數(shù)據(jù)進行替換,直到該數(shù)據(jù)塊中的每個數(shù)據(jù)組都清洗完畢,即完成該數(shù)據(jù)塊的獨立清洗;
同理對其它數(shù)據(jù)塊也執(zhí)行上述清洗;將經(jīng)過該階段清洗得到的多個初步清洗結果視為多個數(shù)據(jù)版本,每個數(shù)據(jù)塊為一個數(shù)據(jù)版本。
5.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法,其特征在于:所述的步驟(5)具體為:
(5.1)首先,將發(fā)生沖突的位置的所有不同數(shù)據(jù)版本各自記為基準,然后以每個基準為起始,在除基準所在數(shù)據(jù)塊以外的其他數(shù)據(jù)塊中找到與基準不沖突且具有最大馬爾科夫權重的數(shù)據(jù)片,并將其與基準進行合并;
(5.2)反復執(zhí)行上述合并操作,直至所有數(shù)據(jù)塊都已被遍歷;然后計算該基準下的合并結果的融合分數(shù)f-score(t)=w1×…×wm,其中wi表示第i個數(shù)據(jù)塊中被合并的數(shù)據(jù)片的馬爾科夫權重;
(5.3)選擇另一個基準為起始,再次執(zhí)行合并操作,計算其對應的融合分數(shù)并記錄,直至獲得所有不同基準下的合并結果的融合分數(shù);然后選擇融合分數(shù)最大的合并結果作為該元組的最終全局統(tǒng)一的清洗結果。
6.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法,其特征在于:所述步驟(6)具體為,在完成兩階段的清洗后,對整個數(shù)據(jù)集進行掃描,為其中的每個元組建立哈希表,當掃描到重復項時,對其進行剔除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811628044.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





