[發(fā)明專利]一種基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法有效

申請?zhí)枺?/td>	201811628044.3	申請日：	2018-12-28
公開（公告）號：	CN109634949B	公開（公告）日：	2022-04-12
發(fā)明（設計）人：	高云君;陳剛;陳純;葛叢叢	申請（專利權）人：	浙江大學
主分類號：	G06F16/215	分類號：	G06F16/215
代理公司：	杭州求是專利事務所有限公司 33200	代理人：	邱啟旺
地址：	310058 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于多數(shù) 版本混合數(shù)據(jù) 清洗方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法，其特征在于，該方法的步驟如下：

(1)獲取帶有臟數(shù)據(jù)集和相關的完整性約束規(guī)則(ICs)；

(2)將不同類型的完整性約束規(guī)則轉化為馬爾科夫邏輯網(wǎng)絡標準化規(guī)則，并用臟數(shù)據(jù)集中各元組包含的常量將轉化后的標準化規(guī)則實例化，每個實例化規(guī)則被稱為數(shù)據(jù)片；

(3)對臟數(shù)據(jù)集建立馬爾科夫邏輯索引結構，先將臟數(shù)據(jù)集根據(jù)規(guī)則劃分為不同的數(shù)據(jù)塊，每個規(guī)則對應一個數(shù)據(jù)塊，每個數(shù)據(jù)塊中的最小單位為數(shù)據(jù)片，而后再將每個數(shù)據(jù)塊再次劃分為不同的數(shù)據(jù)組；

(4)在步驟(3)的基礎上，執(zhí)行第一階段的清洗，引入可信度分數(shù)的評價標準，通過對每個數(shù)據(jù)組進行獨立清洗來得到多個初步清洗結果的數(shù)據(jù)版本；

(5)執(zhí)行第二階段的清洗，引入融合分數(shù)的評價標準，對第一階段產生的多個初步清洗結果的數(shù)據(jù)版本進行融合，消除多版本間的沖突問題，從而生成最終統(tǒng)一的清洗結果；

(6)標記臟數(shù)據(jù)集中存在的重復條目，將經(jīng)過上述兩階段清洗后仍存在的重復數(shù)據(jù)刪除；

(7)輸出數(shù)據(jù)清洗后的數(shù)據(jù)集。

2.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法，其特征在于：所述步驟(2)具體為：

(2.1)將輸入的不同類型的完整性約束通過合取范式轉化規(guī)則標準化為馬爾科夫邏輯網(wǎng)絡規(guī)則；

(2.2)將標準化后的規(guī)則中的所有變量用數(shù)據(jù)集的相應常量代替。

3.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法，其特征在于：所述步驟(3)具體為：

(3.1)根據(jù)臟數(shù)據(jù)集所包含的完整性約束規(guī)則將整個臟數(shù)據(jù)集劃分為多個數(shù)據(jù)塊，每個規(guī)則對應一個數(shù)據(jù)塊，每個數(shù)據(jù)塊中包含若干個數(shù)據(jù)片；

(3.2)在每個數(shù)據(jù)塊中，將屬性中含有相同關鍵字的條目分為同一個組；其中關鍵字為規(guī)則的原因項，具有相同原因的數(shù)據(jù)片被劃分為一組。

4.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法，其特征在于：所述的步驟(4)具體為：

(4.1)處理異常數(shù)據(jù)：將由于數(shù)據(jù)錯誤出現(xiàn)在原因項而導致其對應的數(shù)據(jù)片被劃分到不正確組中的現(xiàn)象稱為“異常”，然后將這些錯誤的數(shù)據(jù)片重新劃分到對應的組中；

(4.2)根據(jù)相似度距離度量方法和馬爾科夫邏輯網(wǎng)絡權重學習方法計算每個組內異常數(shù)據(jù)的可信度分數(shù)(reliability score)；

(4.3)獨立清洗每個數(shù)據(jù)組：清洗單位為數(shù)據(jù)塊中的每個組，選擇可信度分數(shù)最大的數(shù)據(jù)片γ作為替換的基準，利用這個數(shù)據(jù)將屬于同個數(shù)據(jù)組中的其它存疑數(shù)據(jù)進行替換，直到該數(shù)據(jù)塊中的每個數(shù)據(jù)組都清洗完畢，即完成該數(shù)據(jù)塊的獨立清洗；

同理對其它數(shù)據(jù)塊也執(zhí)行上述清洗；將經(jīng)過該階段清洗得到的多個初步清洗結果視為多個數(shù)據(jù)版本，每個數(shù)據(jù)塊為一個數(shù)據(jù)版本。

5.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法，其特征在于：所述的步驟(5)具體為：

(5.1)首先，將發(fā)生沖突的位置的所有不同數(shù)據(jù)版本各自記為基準，然后以每個基準為起始，在除基準所在數(shù)據(jù)塊以外的其他數(shù)據(jù)塊中找到與基準不沖突且具有最大馬爾科夫權重的數(shù)據(jù)片，并將其與基準進行合并；

(5.2)反復執(zhí)行上述合并操作，直至所有數(shù)據(jù)塊都已被遍歷；然后計算該基準下的合并結果的融合分數(shù)f-score(t)＝w₁×…×w_m，其中w_i表示第i個數(shù)據(jù)塊中被合并的數(shù)據(jù)片的馬爾科夫權重；

(5.3)選擇另一個基準為起始，再次執(zhí)行合并操作，計算其對應的融合分數(shù)并記錄，直至獲得所有不同基準下的合并結果的融合分數(shù)；然后選擇融合分數(shù)最大的合并結果作為該元組的最終全局統(tǒng)一的清洗結果。

6.根據(jù)權利要求1所述的基于多數(shù)據(jù)版本的混合數(shù)據(jù)清洗方法，其特征在于：所述步驟(6)具體為，在完成兩階段的清洗后，對整個數(shù)據(jù)集進行掃描，為其中的每個元組建立哈希表，當掃描到重復項時，對其進行剔除。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江大學，未經(jīng)浙江大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811628044.3/1.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種數(shù)據(jù)稽核方法及任務調度器
下一篇：業(yè)務數(shù)據(jù)管理方法、裝置、設備及計算機可讀存儲介質

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】