[發(fā)明專(zhuān)利]數(shù)據(jù)歸一化方法、裝置、計(jì)算機(jī)可讀介質(zhì)和電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202010821129.4 | 申請(qǐng)日: | 2020-08-14 |
| 公開(kāi)(公告)號(hào): | CN112115099A | 公開(kāi)(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 李澤荃 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華北科技學(xué)院 |
| 主分類(lèi)號(hào): | G06F16/13 | 分類(lèi)號(hào): | G06F16/13;G06F16/182 |
| 代理公司: | 北京五洲洋和知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11387 | 代理人: | 劉春成;劉素霞 |
| 地址: | 065201 河北省廊*** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 歸一化 方法 裝置 計(jì)算機(jī) 可讀 介質(zhì) 電子設(shè)備 | ||
本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)歸一化方法、裝置、計(jì)算機(jī)可讀介質(zhì)和電子設(shè)備。該方法包括:基于MapReduce計(jì)算架構(gòu),對(duì)分布式存儲(chǔ)的待處理數(shù)據(jù)進(jìn)行處理,得到初始數(shù)據(jù);其中,所述待處理數(shù)據(jù)的格式為分布式文件系統(tǒng)支持的格式,所述初始數(shù)據(jù)包含多個(gè)鍵不相同的第一鍵值對(duì);基于MapReduce計(jì)算架構(gòu),將所述初始數(shù)據(jù)中的多個(gè)所述第一鍵值對(duì)分別轉(zhuǎn)化為多個(gè)第二鍵值對(duì),得到所述待處理數(shù)據(jù)的歸一化數(shù)據(jù),其中,所述待處理數(shù)據(jù)的歸一化數(shù)據(jù)包含多個(gè)所述第二鍵值對(duì)。籍此,實(shí)現(xiàn)對(duì)分布式儲(chǔ)存的海量級(jí)數(shù)據(jù)的歸一化。
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)歸一化方法、裝置、計(jì)算機(jī)可讀介質(zhì)和電子設(shè)備。
背景技術(shù)
傳統(tǒng)的數(shù)據(jù)歸一化(從數(shù)據(jù)中提取跟個(gè)體有關(guān)的屬性特征以及個(gè)體和個(gè)體間的關(guān)聯(lián)關(guān)系,從而對(duì)數(shù)據(jù)進(jìn)行特征梳理和歸納),需要?dú)w納提取數(shù)據(jù)中的節(jié)點(diǎn)和關(guān)系,最終生成圖表,最常用的是利用圖數(shù)據(jù)庫(kù)生成圖表。利用這種方法,需要將圖數(shù)據(jù)庫(kù)中數(shù)據(jù)的信息屬性合并到一個(gè)個(gè)體(歸一化對(duì)象)的若干節(jié)點(diǎn)(vertex)上,同時(shí)建立這若干個(gè)節(jié)點(diǎn)間的關(guān)系(edge),最后,生成所需要的圖表(graph)。
目前,生成這種結(jié)果一般多采用具備graph、vertex、edge的網(wǎng)絡(luò)型數(shù)據(jù)結(jié)構(gòu),比如:mongodb、neo4j等圖數(shù)據(jù)庫(kù),對(duì)數(shù)據(jù)進(jìn)行逐條記錄逐個(gè)屬性提取節(jié)點(diǎn)(vertex)和關(guān)系(edge),將提取節(jié)點(diǎn)(vertex)和關(guān)系(edge)導(dǎo)入圖數(shù)據(jù)庫(kù)中,按照?qǐng)D數(shù)據(jù)庫(kù)自身的方法生成圖表(graph)。
但是,對(duì)于海量級(jí)數(shù)據(jù)(太字節(jié)(TB,計(jì)算機(jī)存儲(chǔ)單位)及以上數(shù)據(jù))來(lái)說(shuō),往往記錄量一般都在百億或者千億條以上,生成的vertex和edge將會(huì)達(dá)到萬(wàn)億甚至十萬(wàn)億、百萬(wàn)億的量級(jí),即便是存儲(chǔ)方式和應(yīng)用方式一般是非分布式的,利用mongodb、neo4j等圖數(shù)據(jù)庫(kù)對(duì)這個(gè)量級(jí)的數(shù)據(jù)也難以處理;而雖然graphx是基于spark的分布式的圖數(shù)據(jù)庫(kù),但在對(duì)海量級(jí)數(shù)據(jù)進(jìn)行處理時(shí),生成圖數(shù)據(jù)庫(kù)的過(guò)程也非常繁瑣,生成graph很難實(shí)現(xiàn)。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供一種土壤水分反演方法、裝置、計(jì)算機(jī)可讀介質(zhì)和電子設(shè)備,用以解決或緩解上述技術(shù)中存在的技術(shù)問(wèn)題。
本申請(qǐng)實(shí)施例提供一種數(shù)據(jù)歸一化方法,包括:基于MapReduce計(jì)算架構(gòu),對(duì)分布式存儲(chǔ)的待處理數(shù)據(jù)進(jìn)行處理,得到初始數(shù)據(jù);其中,所述待處理數(shù)據(jù)的格式為分布式文件系統(tǒng)支持的格式,所述初始數(shù)據(jù)包含多個(gè)鍵不相同的第一鍵值對(duì);基于MapReduce計(jì)算架構(gòu),將所述初始數(shù)據(jù)中的多個(gè)所述第一鍵值對(duì)分別轉(zhuǎn)化為多個(gè)第二鍵值對(duì),得到所述待處理數(shù)據(jù)的歸一化數(shù)據(jù),其中,所述待處理數(shù)據(jù)的歸一化數(shù)據(jù)包含多個(gè)所述第二鍵值對(duì)。
在一些可選實(shí)施例中,所述基于MapReduce計(jì)算架構(gòu),對(duì)分布式存儲(chǔ)的待處理數(shù)據(jù)進(jìn)行處理,得到初始數(shù)據(jù),包括:基于MapReduce計(jì)算架構(gòu),對(duì)分布式存儲(chǔ)的所述待處理數(shù)據(jù)進(jìn)行分割處理,得到第一結(jié)果數(shù)組;建立所述第一結(jié)果數(shù)組的要素標(biāo)記數(shù)組,其中,所述要素標(biāo)記數(shù)組中的要素標(biāo)記與所述第一結(jié)果數(shù)組中的元素一一對(duì)應(yīng);根據(jù)所述第一結(jié)果數(shù)組和所述要素標(biāo)記數(shù)組,得到第二結(jié)果數(shù)組,其中,所述第二結(jié)果數(shù)組中包含的每個(gè)元素由所述第一結(jié)果數(shù)組中的非空值元素、所述非空值元素對(duì)應(yīng)的所述要素標(biāo)記數(shù)組中的所述要素標(biāo)記拼接得到;對(duì)所述第二結(jié)果數(shù)組進(jìn)行遍歷,提取所述第二結(jié)果數(shù)組中的每個(gè)元素,將所述第二結(jié)果數(shù)組中的每個(gè)元素與所述第二結(jié)果數(shù)組組成一個(gè)第一初始鍵值對(duì);對(duì)多個(gè)所述第一初始鍵值對(duì)進(jìn)行轉(zhuǎn)化,得到多個(gè)鍵不相同的第一鍵值對(duì),其中,多個(gè)所述第一鍵值對(duì)構(gòu)成所述初始數(shù)據(jù)。
在一些可選實(shí)施例中,所述根據(jù)所述第一結(jié)果數(shù)組和所述要素標(biāo)記數(shù)組,得到第二結(jié)果數(shù)組,包括:提取所述第一結(jié)果數(shù)組中的非空值元素,以及,所述非空值元素對(duì)應(yīng)的所述要素標(biāo)記數(shù)組中的所述要素標(biāo)記;對(duì)所述非空值元素和所述非空值元素對(duì)應(yīng)的所述要素標(biāo)記進(jìn)行拼接,構(gòu)成所述第二結(jié)果數(shù)組的多個(gè)元素,以得到所述第二結(jié)果數(shù)組。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華北科技學(xué)院,未經(jīng)華北科技學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010821129.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





