[發明專利]一種消除大數據規范關系連接冗余的優化方法有效
| 申請號: | 201710638243.1 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN107506394B | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 劉黎志 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06F16/22;G06F16/2458;G06F16/28 |
| 代理公司: | 寧波市鄞州甬致專利代理事務所(普通合伙) 33228 | 代理人: | 李迎春 |
| 地址: | 430205 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 消除 數據 規范 關系 連接 冗余 優化 方法 | ||
本發明通過對二次排序算法進行優化,重新定義Map階段的分區過程、Shuffle階段的排序及分組過程,使得Map階段的輸出為包含一方關系屬性值和多方關系排序值的組合鍵及包含多方關系屬性值的集合,Reduce階段將組合鍵進行分解,提取一方關系的主碼作為HBase表的行鍵,并將組合鍵中一方關系的各個屬性值,多方關系屬性值集合及排序后的連接結果分別寫入HBase表中對應的列,從而既實現了連接的語義,又消除了冗余,由于以HBase表存儲連接結果,從而可以利用HBase提供的各類方法進行數據檢索,提高了對連接結果的查詢效率。
技術領域
本發明涉及數據優化技術領域,尤其涉及一種消除大數據規范關系連接冗余的優化方法。
背景技術
MapReduce是一種用于處理大數據的分布式計算框架,其數據處理的流程分為Map、Shuffle、Reduce即映射、洗牌、歸約三個階段。在Map階段,原始數據源根據其數據特征被劃分成若干數據塊,每個數據塊由集群中的節點進行Map邏輯處理,結果以Key/Value即鍵/值對的形式輸出。Shuffle階段負責對Key/Value對進行排序及分組,Map階段的排序發生在將節點內存緩沖區的key/Value寫入到本地磁盤spill文件,及將多個本地磁盤spill文件合并為一個spill文件時,排序的過程為:首先根據Key所屬的Partition即分區排序,然后每個Partition再按Key進行排序。Map階段完成后,每個Partition會被拷貝到對應的Reduce節點中,由于Reduce節點會接受來自多個Map節點的數據,故Shuffle在Reduce階段的任務就是將來自不同Map節點的Partition按Key值進行歸并排序后,將Key/Value根據Key值分組為[Key,List(Value1,Value2…Valuen)],Value即值,n為正整數,排序后的結果將作為Reduce階段的任務輸入。Reduce階段負責對[Key,ListValue1,Value2…Valuen]按特定邏輯進行歸約處理,并將結果輸出。
Hadoop MapReduce是Google MapReduce框架的開源實現,通過對HadoopMapReduce進行擴展,可以將HBase與MapReduce進行集成,從而使得HBase數據表和外界數據源可以以MapReduce的方式進行雙向交互,從而提高數據的處理速度和效率。HBase是建立在Hadoop之上,具有高可靠性、高性能、列存儲、可伸縮、實時讀寫特點的數據庫系統,能夠為海量的數據提供高性能的數據維護及查詢服務。現有的MapReduce在對規范的一對多關系進行連接操作時,一方關系的各個屬性值均會被多次重復存儲。現有技術中的數據連接方式具體為,一方關系M(mkey,matt1,matt2,...,mattn),多方關系為S(SKEY,mkey,SATT,SVALUE),其中mkey為多方關系S的外碼,(mkey[m],matt1[m],matt2[m],...,mattn[m]),m∈[1,n]表示一方關系M的一個元組,多方關系S中的SATT屬性的取值范圍為{satt1,satt2,...,sattn},n為正整數,SVALUE的取值范圍為{svalue1,svalue2,...,svaluen},n為正整數,且svalue1,svalue2,...,svaluen為按照1至n從小到大排序的整型值。現有技術中使用mkey對關系M和S進行連接操作,并根據SVALUE值進行連接及二次排序后的結果下所示,
例如其中的svalue1、svalue2、svalue3、svalue4在連接及排序的過程中,mkey[1]matt1[1]matt2[1]...mattn[1]等屬性值被重復使用了4次,因此產生了在連接結果中產生了大量冗余,連接結果的查詢效率較低。
發明內容
本發明提供了一種消除大數據規范關系連接冗余的優化方法,該方法可以有效消除一對多關系中的數據冗余,提高對連接結果的查詢效率。
本發明所采用的技術方案是,一種消除大數據規范關系連接冗余的優化方法,其特征在于,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710638243.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





