[發明專利]數據歸一化方法、裝置、計算機可讀介質和電子設備在審
| 申請號: | 202010821129.4 | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN112115099A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 李澤荃 | 申請(專利權)人: | 華北科技學院 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/182 |
| 代理公司: | 北京五洲洋和知識產權代理事務所(普通合伙) 11387 | 代理人: | 劉春成;劉素霞 |
| 地址: | 065201 河北省廊*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 歸一化 方法 裝置 計算機 可讀 介質 電子設備 | ||
1.一種數據歸一化方法,其特征在于,包括:
基于MapReduce計算架構,對分布式存儲的待處理數據進行處理,得到初始數據;其中,所述待處理數據的格式為分布式文件系統支持的格式,所述初始數據包含多個鍵不相同的第一鍵值對;
基于MapReduce計算架構,將所述初始數據中的多個所述第一鍵值對分別轉化為多個第二鍵值對,得到所述待處理數據的歸一化數據,其中,所述待處理數據的歸一化數據包含多個所述第二鍵值對。
2.根據權利要求1所述的方法,其特征在于,所述基于MapReduce計算架構,對分布式存儲的待處理數據進行處理,得到初始數據,包括:基于MapReduce計算架構,
對分布式存儲的所述待處理數據進行分割處理,得到第一結果數組;
建立所述第一結果數組的要素標記數組,其中,所述要素標記數組中的要素標記與所述第一結果數組中的元素一一對應;
根據所述第一結果數組和所述要素標記數組,得到第二結果數組,其中,所述第二結果數組中包含的每個元素由所述第一結果數組中的非空值元素、所述非空值元素對應的所述要素標記數組中的所述要素標記拼接得到;
對所述第二結果數組進行遍歷,提取所述第二結果數組中的每個元素,將所述第二結果數組中的每個元素與所述第二結果數組組成一個第一初始鍵值對;
對多個所述第一初始鍵值對進行轉化,得到多個鍵不相同的第一鍵值對,其中,多個所述第一鍵值對構成所述初始數據。
3.根據權利要求2所述的方法,其特征在于,所述根據所述第一結果數組和所述要素標記數組,得到第二結果數組,包括:
提取所述第一結果數組中的非空值元素,以及,所述非空值元素對應的所述要素標記數組中的所述要素標記;
對所述非空值元素和所述非空值元素對應的所述要素標記進行拼接,構成所述第二結果數組的多個元素,以得到所述第二結果數組。
4.根據權利要求2所述的方法,其特征在于,所述對多個所述第一初始鍵值對進行轉化,得到多個鍵不相同的第一鍵值對,包括:對多個所述第一初始鍵值對中鍵相同的所述第一初始鍵值對的值進行并集處理,并對并集處理的結果進行去重處理,得到多個鍵不相同的所述第一鍵值對。
5.根據權利要求1所述的方法,其特征在于,所述基于MapReduce計算架構,將所述初始數據中的多個所述第一鍵值對分別轉化為多個第二鍵值對,得到所述待處理數據的歸一化數據,包括:基于MapReduce計算架構,
提取所述初始數據中的多個所述第一鍵值對的值,生成中間結果數組;
對所述中間結果數組進行遍歷,提取所述中間結果數組中的每一個元素,將所述中間結果數組中的每個元素與所述中間結果數組組成一個第二初始鍵值對;
對多個所述第二初始鍵值對中鍵相同的所述第二初始鍵值對的值進行并集處理,并對并集處理的結果進行去重處理,生成多個第二鍵值對,由多個所述第二鍵值對構成所述待處理數據的歸一化數據。
6.根據權利要求5所述的方法,其特征在于,所述對多個所述第二初始鍵值對中鍵相同的所述第二初始鍵值對的值進行并集處理,并對并集處理的結果進行去重處理,生成多個所述第二鍵值對,由多個所述第二鍵值對構成所述待處理數據的歸一化數據,包括:
根據所述待處理數據中的第i個數據要素,對所述第i個數據要素對應的多個所述第二初始鍵值對中相同的值進行并集處理,并對并集處理的結果進行去重處理,生成所述第i個數據要素的多個所述第二鍵值對,由所述第i個數據要素的多個所述第二鍵值對構成所述待處理數據的所述第i個數據要素的歸一化數據,其中,i為正整數;
基于MapReduce計算架構,對所述第i個數據要素的多個所述第二鍵值對進行轉化,生成第i+1個數據要素的多個所述第二鍵值對,由所述第i+1個數據要素的多個所述第二鍵值對構成所述待處理數據的所述第i+1個數據要素的歸一化數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華北科技學院,未經華北科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010821129.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便于拆裝的負荷開關
- 下一篇:乳鐵蛋白適配體親和柱及其制備方法與應用
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





