[發(fā)明專利]一種基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法在審
| 申請?zhí)枺?/td> | 201910039302.2 | 申請日: | 2019-01-16 |
| 公開(公告)號: | CN109815222A | 公開(公告)日: | 2019-05-28 |
| 發(fā)明(設計)人: | 陳小強 | 申請(專利權)人: | 江蘇圣通電力新能源科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06Q50/06 |
| 代理公司: | 南京正聯(lián)知識產(chǎn)權代理有限公司 32243 | 代理人: | 李寰 |
| 地址: | 212400 江蘇省鎮(zhèn)*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 用電數(shù)據(jù) 算法 貝葉斯 住戶 數(shù)據(jù)清洗 錯誤類型 結(jié)果驗證 排序算法 數(shù)據(jù)采集 數(shù)據(jù)替換 重復數(shù)據(jù) 不一致 檢測 重復 非法 制定 | ||
本發(fā)明涉及數(shù)據(jù)清洗相關技術領域,具體為一種基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法。包括數(shù)據(jù)采集,規(guī)則定義、數(shù)據(jù)清洗,結(jié)果驗證和數(shù)據(jù)替換,該基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法利用定義清洗規(guī)則,根據(jù)住戶用電數(shù)據(jù)不同的錯誤類型制定不同的清洗規(guī)則,同時,清洗規(guī)則包括非法值、空值、不一致數(shù)據(jù)以及相似重復數(shù)據(jù)的檢測和處理,采用近鄰排序算法SNM,該算法可以對相似數(shù)據(jù)進行有效重復值清洗的工作,提高效率。
技術領域
本發(fā)明涉及數(shù)據(jù)清洗相關技術領域,具體為一種基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法。
背景技術
數(shù)據(jù)清洗,對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。
但是在現(xiàn)有的數(shù)據(jù)清洗方法中,缺少針對住戶用電數(shù)據(jù)不同的錯誤類型制定不同的清洗規(guī)則,而且,現(xiàn)有的清洗方法雖然會多次清洗,但是,并沒有對相似重復數(shù)據(jù)進行檢測和處理。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法,以解決現(xiàn)有的數(shù)據(jù)清洗方法中,缺少針對住戶用電數(shù)據(jù)不同的錯誤類型制定不同的清洗規(guī)則,而且,現(xiàn)有的清洗方法雖然會多次清洗,但是,并沒有對相似重復數(shù)據(jù)進行檢測和處理的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
一種基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法,包括以下步驟:1)從住戶用電數(shù)據(jù)庫中采集住戶用電數(shù)據(jù),將采集到的住戶用電數(shù)據(jù)放入待清洗庫中;2)對待清洗數(shù)據(jù)庫中的住戶用電數(shù)據(jù)進行數(shù)據(jù)分析,確定住戶用電數(shù)據(jù)的屬性信息;3)定義清洗規(guī)則,根據(jù)住戶用電數(shù)據(jù)不同的錯誤類型制定不同的清洗規(guī)則;4)根據(jù)清洗規(guī)則對住戶用電數(shù)據(jù)進行初次清洗;5)采用貝葉斯算法對初次清洗后的住戶用電數(shù)據(jù)進行深度清洗;6)驗證清洗結(jié)果,判斷是否滿足清洗要求,如果是,則進行步驟7,否則重復步驟2)至步驟5);7)用清洗后的住戶用電數(shù)據(jù)替換原住戶用電數(shù)據(jù)。
優(yōu)選的,所述步驟3)中清洗規(guī)則包括非法值、空值、不一致數(shù)據(jù)以及相似重復數(shù)據(jù)的檢測和處理。
優(yōu)選的,所述非法值的處理方法是采取預設值、空值替換非法值或刪除非法值。
優(yōu)選的,所述空值的處理方法是采取平均值填充法、中位數(shù)填充法、運用KNN或神經(jīng)網(wǎng)絡相關算法填充空值。
優(yōu)選的,所述不一致數(shù)據(jù)的處理方法是采取元數(shù)據(jù)實現(xiàn)住戶用電數(shù)據(jù)的一致性。
優(yōu)選的,所述相似重復數(shù)據(jù)的清洗規(guī)則采用近鄰排序算法SNM。
與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:該基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法利用定義清洗規(guī)則,根據(jù)住戶用電數(shù)據(jù)不同的錯誤類型制定不同的清洗規(guī)則,同時,清洗規(guī)則包括非法值、空值、不一致數(shù)據(jù)以及相似重復數(shù)據(jù)的檢測和處理,采用近鄰排序算法SNM,該算法可以對相似數(shù)據(jù)進行有效重復值清洗的工作,提高效率。
附圖說明
圖1是本發(fā)明的流程圖。
具體實施方式
下面將結(jié)合本發(fā)明的實施例和附圖,對本發(fā)明中的技術方案做進一步詳細描述,該實施例僅用于解釋本發(fā)明,并不對本發(fā)明的保護范圍構(gòu)成限定。
本發(fā)明提供一種技術方案:一種基于貝葉斯算法的住戶用電數(shù)據(jù)清洗方法,包括以下步驟:
1)從住戶用電數(shù)據(jù)庫中采集住戶用電數(shù)據(jù),將采集到的住戶用電數(shù)據(jù)放入待清洗庫中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇圣通電力新能源科技有限公司,未經(jīng)江蘇圣通電力新能源科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910039302.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 配用電多源異構(gòu)數(shù)據(jù)的混合存儲方法和系統(tǒng)
- 一種用電信息數(shù)據(jù)檢索方法及裝置
- 用電地址數(shù)據(jù)處理方法、裝置、計算機設備和存儲介質(zhì)
- 一種異常用電檢測方法及裝置
- 基于電力物聯(lián)網(wǎng)的大數(shù)據(jù)分析方法、裝置及計算機設備
- 用電負荷控制系統(tǒng)
- 基于大數(shù)據(jù)和物聯(lián)網(wǎng)的數(shù)據(jù)分析方法及裝置
- 基于物聯(lián)網(wǎng)的終端數(shù)據(jù)處理方法及計算機設備
- 用電數(shù)據(jù)異常檢測方法、裝置、計算機設備和存儲介質(zhì)
- 用電異常的研究方法、裝置與計算機可讀存儲介質(zhì)
- 一種自主融合先驗知識的貝葉斯網(wǎng)絡方法
- 構(gòu)建解決組合爆炸問題的級聯(lián)貝葉斯網(wǎng)絡的方法
- 一種可重構(gòu)系統(tǒng)貝葉斯網(wǎng)構(gòu)建方法
- 一種基于貝葉斯網(wǎng)絡的網(wǎng)站缺陷預測方法及其實現(xiàn)系統(tǒng)
- 應用處理方法、裝置、存儲介質(zhì)及電子設備
- 一種遮擋目標檢測方法、電子設備、存儲介質(zhì)及系統(tǒng)
- 基于貝葉斯網(wǎng)絡推理模型的犯罪重建方法及裝置
- 利用憶阻器本征噪聲實現(xiàn)貝葉斯神經(jīng)網(wǎng)絡的方法及裝置
- 基于面向?qū)ο筘惾~斯網(wǎng)絡的中央空調(diào)系統(tǒng)故障診斷方法
- 一種基于貝葉斯神經(jīng)網(wǎng)絡權重約束的圖像分類方法





