[發(fā)明專利]針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711239139.1 | 申請(qǐng)日: | 2017-12-01 |
| 公開(kāi)(公告)號(hào): | CN110019159A | 公開(kāi)(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 祁建明;周峻松;徐繼峰;陳墩金 | 申請(qǐng)(專利權(quán))人: | 廣州明領(lǐng)基因科技有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/25 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 510610 廣東省廣州市天河區(qū)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 完整數(shù)據(jù) 大數(shù)據(jù) 數(shù)據(jù)源 清洗 預(yù)處理 結(jié)果數(shù)據(jù) 數(shù)據(jù)清理 新數(shù)據(jù)源 有效地 導(dǎo)出 推斷 修正 檢測(cè) | ||
1.針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,其特征在于,所述方法包括:S1,通過(guò)JDBC接口調(diào)入待清理的數(shù)據(jù);S2,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;S3,對(duì)數(shù)據(jù)進(jìn)行不完整數(shù)據(jù)的檢測(cè)、判別以及修正;S4,通過(guò)JDBC接口導(dǎo)出結(jié)果數(shù)據(jù)至新數(shù)據(jù)源。
2.根據(jù)權(quán)利要求1所述的針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,其特征在于,所述步驟S1中,JDBC為Java DataBase Connectivity的縮寫,即Java數(shù)據(jù)庫(kù)連接,該接口把數(shù)據(jù)源中需要清理的數(shù)據(jù)調(diào)入到系統(tǒng)中,執(zhí)行數(shù)據(jù)清理。
3.根據(jù)權(quán)利要求1所述的針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,其特征在于,所述步驟S2中,數(shù)據(jù)預(yù)處理是指標(biāo)準(zhǔn)化數(shù)據(jù)記錄格式,根據(jù)預(yù)定義的規(guī)則,把數(shù)據(jù)記錄中的相應(yīng)字段轉(zhuǎn)換成同一格式。
4.根據(jù)權(quán)利要求1所述的針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,其特征在于,所述步驟S3中,利用算法庫(kù)、規(guī)則庫(kù)及數(shù)據(jù)清理日志完成對(duì)不完整數(shù)據(jù)的相關(guān)處理。
5.根據(jù)權(quán)利要求1所述的針對(duì)不完整數(shù)據(jù)的大數(shù)據(jù)清洗方法,其特征在于,所述步驟S4中,JDBC將處理所得的正確數(shù)據(jù)導(dǎo)出至新數(shù)據(jù)庫(kù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州明領(lǐng)基因科技有限公司,未經(jīng)廣州明領(lǐng)基因科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711239139.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種傳輸控制協(xié)議粘包處理方法及裝置
- 一種處理傳輸控制協(xié)議粘包方法及裝置
- 車聯(lián)網(wǎng)數(shù)據(jù)傳輸方法及裝置
- 一種海量不完整數(shù)據(jù)存儲(chǔ)及操作方法
- 一種應(yīng)用于海量不完整數(shù)據(jù)的壓縮優(yōu)化方法
- 信息反饋RBF網(wǎng)絡(luò)估值的不完整數(shù)據(jù)模糊聚類方法
- 一種基于信息熵的數(shù)據(jù)填充方法及裝置
- 一種與下位機(jī)傳輸數(shù)據(jù)的方法及裝置
- 一種基于界標(biāo)的數(shù)據(jù)填補(bǔ)方法及裝置
- 一種不完整數(shù)據(jù)的子空間聚類方法及裝置
- 基于大數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)安全實(shí)施系統(tǒng)及方法
- 基于事件驅(qū)動(dòng)的智慧城市大數(shù)據(jù)體系及處理方法
- 一種大數(shù)據(jù)應(yīng)用開(kāi)發(fā)的系統(tǒng)及方法
- 家用設(shè)備報(bào)告的生成方法、大數(shù)據(jù)系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于計(jì)算機(jī)大數(shù)據(jù)的平臺(tái)架構(gòu)
- 一種大數(shù)據(jù)處理系統(tǒng)
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種聯(lián)網(wǎng)式醫(yī)療大數(shù)據(jù)分級(jí)傳輸方法及系統(tǒng)
- 一種大數(shù)據(jù)信息監(jiān)控方法、裝置及計(jì)算機(jī)設(shè)備
- 一種知識(shí)產(chǎn)權(quán)大數(shù)據(jù)情報(bào)檢索系統(tǒng)
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補(bǔ)充方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 一種基于多個(gè)數(shù)據(jù)源調(diào)節(jié)工業(yè)自動(dòng)化的操作系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計(jì)算機(jī)設(shè)備
- 一種動(dòng)態(tài)數(shù)據(jù)源查詢方法及裝置
- 一種訪問(wèn)多數(shù)據(jù)源的方法及系統(tǒng)





