[發(fā)明專利]針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711239139.1 | 申請(qǐng)日: | 2017-12-01 |
| 公開(公告)號(hào): | CN110019159A | 公開(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 祁建明;周峻松;徐繼峰;陳墩金 | 申請(qǐng)(專利權(quán))人: | 廣州明領(lǐng)基因科技有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/25 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510610 廣東省廣州市天河區(qū)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 完整數(shù)據(jù) 大數(shù)據(jù) 數(shù)據(jù)源 清洗 預(yù)處理 結(jié)果數(shù)據(jù) 數(shù)據(jù)清理 新數(shù)據(jù)源 有效地 導(dǎo)出 推斷 修正 檢測(cè) | ||
本發(fā)明公開了一種針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,所述方法包括:S1,通過JDBC接口調(diào)入待清理的數(shù)據(jù);S2,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;S3,對(duì)數(shù)據(jù)進(jìn)行不完整數(shù)據(jù)的檢測(cè)、判別以及修正;S4,通過JDBC接口導(dǎo)出結(jié)果數(shù)據(jù)至新數(shù)據(jù)源。本發(fā)明方案利用數(shù)據(jù)源之間的屬性值并不是相互獨(dú)立的特性,通過識(shí)別屬性值之間的關(guān)系可以推斷出丟失的屬性值,有效地達(dá)到了數(shù)據(jù)清理的目的,提高了數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)清洗技術(shù)領(lǐng)域,涉及一種針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法。
背景技術(shù)
隨著信息化的進(jìn)展,企業(yè)內(nèi)部積累了大量的電子數(shù)據(jù),這些數(shù)據(jù)對(duì)企業(yè)非常重要。但由于各種原因,導(dǎo)致企業(yè)現(xiàn)有系統(tǒng)數(shù)據(jù)庫(kù)中存在重復(fù)的記錄、錯(cuò)誤的數(shù)據(jù)、不完整的數(shù)據(jù)等臟數(shù)據(jù)。這些臟數(shù)據(jù)會(huì)扭曲從數(shù)據(jù)中獲得的信息,影響信息系統(tǒng)的運(yùn)行效果,也為企業(yè)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)、建立決策支持系統(tǒng)、應(yīng)用商務(wù)智能化帶來隱患。
為提高信息系統(tǒng)的數(shù)據(jù)質(zhì)量,數(shù)據(jù)清理變得很重要。其中,數(shù)據(jù)不完整(Incompleteness)是產(chǎn)生數(shù)據(jù)質(zhì)量問題的一個(gè)重要因素。
簡(jiǎn)單地說,數(shù)據(jù)不完整是指數(shù)據(jù)源中屬性值的丟失問題。不完整數(shù)據(jù)的存在會(huì)引起決策錯(cuò)誤,特別是數(shù)值數(shù)據(jù)中出現(xiàn)不完整數(shù)據(jù),所以必須解決數(shù)據(jù)源中的數(shù)據(jù)不完整問題。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,為了克服數(shù)據(jù)源中的不完整數(shù)據(jù)會(huì)加大數(shù)據(jù)源清理的難度,降低數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)挖掘效果的問題,利用數(shù)據(jù)源之間的屬性值并不是相互獨(dú)立的特性,通過識(shí)別屬性值之間的關(guān)系可以推斷出丟失的屬性值,有效地達(dá)到了數(shù)據(jù)清理的目的,提高了數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。
為解決上述技術(shù)問題,本發(fā)明采用如下的技術(shù)方案:一種針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,所述方法包括:S1,通過JDBC接口調(diào)入待清理的數(shù)據(jù);S2,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;S3,對(duì)數(shù)據(jù)進(jìn)行不完整數(shù)據(jù)的檢測(cè)、判別以及修正;S4,通過JDBC接口導(dǎo)出結(jié)果數(shù)據(jù)至新數(shù)據(jù)源。
進(jìn)一步地,所述步驟S1中,JDBC為Java DataBase Connectivity的縮寫,即Java數(shù)據(jù)庫(kù)連接,該接口把數(shù)據(jù)源中需要清理的數(shù)據(jù)調(diào)入到系統(tǒng)中,執(zhí)行數(shù)據(jù)清理。
進(jìn)一步地,所述步驟S2中,數(shù)據(jù)預(yù)處理是指標(biāo)準(zhǔn)化數(shù)據(jù)記錄格式,根據(jù)預(yù)定義的規(guī)則,把數(shù)據(jù)記錄中的相應(yīng)字段轉(zhuǎn)換成同一格式。
進(jìn)一步地,所述步驟S3中,利用算法庫(kù)、規(guī)則庫(kù)及數(shù)據(jù)清理日志完成對(duì)不完整數(shù)據(jù)的相關(guān)處理。
進(jìn)一步地,所述步驟S4中,JDBC將處理所得的正確數(shù)據(jù)導(dǎo)出至新數(shù)據(jù)庫(kù)。
本發(fā)明與現(xiàn)有技術(shù)相比具有以下的有益效果:
本發(fā)明方案針對(duì)數(shù)據(jù)源中的不完整數(shù)據(jù)會(huì)加大數(shù)據(jù)源清理的難度,降低數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)挖掘效果的問題,利用數(shù)據(jù)源之間的屬性值并不是相互獨(dú)立的特性,通過識(shí)別屬性值之間的關(guān)系可以推斷出丟失的屬性值,達(dá)到數(shù)據(jù)清理的目的,提高數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。
附圖說明
圖1是針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法的流程框圖。
圖2是針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法中不完整數(shù)據(jù)操作原理流程圖。
具體實(shí)施方式
下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明進(jìn)行更加詳細(xì)與完整的說明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。
參照?qǐng)D1,本發(fā)明的一種針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,所述方法包括:
S1,把數(shù)據(jù)源中需要清理的數(shù)據(jù)通過JDBC(Java DataBase Connectivity,Java數(shù)據(jù)庫(kù)連接)接口調(diào)入到系統(tǒng)中來,執(zhí)行數(shù)據(jù)清理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州明領(lǐng)基因科技有限公司,未經(jīng)廣州明領(lǐng)基因科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711239139.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種傳輸控制協(xié)議粘包處理方法及裝置
- 一種處理傳輸控制協(xié)議粘包方法及裝置
- 車聯(lián)網(wǎng)數(shù)據(jù)傳輸方法及裝置
- 一種海量不完整數(shù)據(jù)存儲(chǔ)及操作方法
- 一種應(yīng)用于海量不完整數(shù)據(jù)的壓縮優(yōu)化方法
- 信息反饋RBF網(wǎng)絡(luò)估值的不完整數(shù)據(jù)模糊聚類方法
- 一種基于信息熵的數(shù)據(jù)填充方法及裝置
- 一種與下位機(jī)傳輸數(shù)據(jù)的方法及裝置
- 一種基于界標(biāo)的數(shù)據(jù)填補(bǔ)方法及裝置
- 一種不完整數(shù)據(jù)的子空間聚類方法及裝置
- 基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動(dòng)的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺(tái)架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級(jí)傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識(shí)產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補(bǔ)充方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個(gè)數(shù)據(jù)源調(diào)節(jié)工業(yè)自動(dòng)化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種動(dòng)態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問多數(shù)據(jù)源的方法及系統(tǒng)





