[發(fā)明專利]一種自動化的數(shù)據(jù)清洗方法在審
| 申請?zhí)枺?/td> | 202110742624.0 | 申請日: | 2021-07-01 |
| 公開(公告)號: | CN113392099A | 公開(公告)日: | 2021-09-14 |
| 發(fā)明(設(shè)計)人: | 胡德斌 | 申請(專利權(quán))人: | 蘇州維眾數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/245;G06F16/28 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 215000 江蘇省蘇州市工業(yè)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自動化 數(shù)據(jù) 清洗 方法 | ||
本發(fā)明揭示了一種自動化的數(shù)據(jù)清洗方法,針對關(guān)系型數(shù)據(jù)庫,包括如下步驟:S1、制定規(guī)則集;S2、設(shè)定規(guī)則集的判定函數(shù);S3、計算數(shù)據(jù)表的整體置信度;S4、計算數(shù)據(jù)表中各字段的置信度;S5、明確數(shù)據(jù)表中各字段間的依賴關(guān)系;S6、構(gòu)建節(jié)點間的關(guān)系矩陣;S7、計算節(jié)點之間的影響因子;S8、數(shù)據(jù)賦值;S9、完成數(shù)據(jù)清洗。本發(fā)明利用計算機技術(shù)實現(xiàn)了自動化的數(shù)據(jù)清洗作業(yè),整個過程中無需人工建立數(shù)據(jù)表之間的關(guān)系,最大限度地節(jié)約了企業(yè)的人力資源,提高了數(shù)據(jù)清洗的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)處理方法,具體而言,涉及一種利用計算機算法的自動化的數(shù)據(jù)清洗方法,屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域。
背景技術(shù)
大數(shù)據(jù)一般是指無法在一定時間內(nèi)利用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合,也是近年來受到人們廣泛關(guān)注、討論和研究的一個概念。相應地,從各種類型的大數(shù)據(jù)中快速獲取有價值信息的大數(shù)據(jù)處理技術(shù)近年來也得到了長足的進步。
數(shù)據(jù)清洗是大數(shù)據(jù)處理技術(shù)在應用過程中的一項重要環(huán)節(jié),隨著數(shù)據(jù)量的不斷增加,大數(shù)據(jù)中的噪聲數(shù)據(jù)也越來越多,這些噪聲數(shù)據(jù)可能表現(xiàn)為錯誤數(shù)據(jù)、空值數(shù)據(jù)、相互矛盾的數(shù)據(jù)以及模糊或有歧義的數(shù)據(jù)等,這些噪聲數(shù)據(jù)的存在給大數(shù)據(jù)處理技術(shù)的實際應用帶來了巨大的困擾,使得本領(lǐng)域內(nèi)的技術(shù)人員不得不花費大量的時間來進行數(shù)據(jù)清洗作業(yè)。
可以認為,在現(xiàn)階段,數(shù)據(jù)清洗已經(jīng)成為數(shù)據(jù)科學中最為重要,也最為耗費人力、物力的一項基礎(chǔ)工作。加之目前本領(lǐng)域內(nèi)缺少具有普適性、通用性的數(shù)據(jù)清洗方案,大多數(shù)的工作仍然需要人工完成,很顯然,這對于企業(yè)而言無疑是人力資源的極大浪費、嚴重制約了企業(yè)的生產(chǎn)效率和實際產(chǎn)出。
綜上所述,如何在現(xiàn)有技術(shù)的基礎(chǔ)上提出一種綜合性的、自動化的數(shù)據(jù)清洗方法,以克服現(xiàn)有技術(shù)中的諸多缺陷,也就成為了業(yè)內(nèi)研究人員亟待解決的問題。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)存在上述缺陷,本發(fā)明的目的是提出一種利用計算機算法的自動化的數(shù)據(jù)清洗方法,具體如下。
一種自動化的數(shù)據(jù)清洗方法,針對關(guān)系型數(shù)據(jù)庫,包括如下步驟:
S1、制定規(guī)則集,依據(jù)行業(yè)常識或行業(yè)數(shù)據(jù)標準人為制定規(guī)則,并將所制定的規(guī)則匯總形成規(guī)則集,并定義所述規(guī)則集內(nèi)的所有規(guī)則為強規(guī)則;
S2、設(shè)定規(guī)則集的判定函數(shù),為所述規(guī)則集內(nèi)的規(guī)則設(shè)定判定函數(shù),利用所述判定函數(shù)判斷所述關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)表是否符合規(guī)則,并反饋對應結(jié)果;
S3、計算數(shù)據(jù)表的整體置信度,計算所述數(shù)據(jù)表中所有字段數(shù)據(jù)符合所述規(guī)則集中全部規(guī)則的概率,并使用計算結(jié)果表示所述數(shù)據(jù)表的置信度;
S4、計算數(shù)據(jù)表中各字段的置信度,計算所述數(shù)據(jù)表中各個字段符合所述規(guī)則集中相應規(guī)則的概率,并使用計算結(jié)果表示所述數(shù)據(jù)表中各字段的置信度;
S5、明確數(shù)據(jù)表中各字段間的依賴關(guān)系,構(gòu)建所有的所述數(shù)據(jù)表中字段的關(guān)系表,得到節(jié)點關(guān)系表;
S6、構(gòu)建節(jié)點間的關(guān)系矩陣,讀取待清洗數(shù)據(jù)表內(nèi)的所有字段,在已有的所述數(shù)據(jù)表中查找對應字段,分別逐一判定節(jié)點之間的依賴關(guān)系;
S7、計算節(jié)點之間的影響因子,通過計算得到節(jié)點之間的影響力模型;
S8、數(shù)據(jù)賦值,依據(jù)S7中的計算結(jié)果,使用置信度高的數(shù)據(jù)替換置信度低的數(shù)據(jù)、對所述數(shù)據(jù)表中的各字段進行重新賦值;
S9、完成數(shù)據(jù)清洗,重復S7~S8,直至待清洗數(shù)據(jù)表內(nèi)所有字段均完成相應操作、數(shù)據(jù)清洗隨即完畢。
優(yōu)選地,在所述關(guān)系型數(shù)據(jù)庫中包含多張數(shù)據(jù)表,每張所述數(shù)據(jù)表由行、列組成,其中行表示該張所述數(shù)據(jù)表中有多少條數(shù)據(jù)、列由多個字段組成,每張所述數(shù)據(jù)表均為由多個字段組成的數(shù)據(jù)集合,每個字段對應一個節(jié)點,所述節(jié)點為對應字段極其描述數(shù)據(jù)所構(gòu)成的多元數(shù)據(jù)組。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州維眾數(shù)據(jù)技術(shù)有限公司,未經(jīng)蘇州維眾數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110742624.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





