[發明專利]基于云計算的大數據分布式處理方法及系統在審
| 申請號: | 201710130418.8 | 申請日: | 2017-03-07 |
| 公開(公告)號: | CN106951475A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 梁明亮;孫逸潔;劉偉;蘇東民;董黎生 | 申請(專利權)人: | 鄭州鐵路職業技術學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 談杰 |
| 地址: | 451460 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 數據 分布式 處理 方法 系統 | ||
技術領域
本發明涉及大數據云計算技術領域,特別涉及一種基于云計算的大數據分布式處理方法及系統。
背景技術
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。大數據(Big data)通常用來表示大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于用途分析。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘系統、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
大數據環境下數據來源非常豐富且數據類型多樣,存儲和分析挖掘的數據量龐大,對數據展現的要求較高,并且很看重數據處理的高效性和可用性。然而傳統數據處理方法存在以下不足:1、傳統的數據采集來源單一,且存儲、管理和分析數據量也相對較小,大多采用關系型數據庫和并行數據倉庫即可處理。對依靠并行計算提升數據處理速度方面而言,傳統的并行數據庫技術追求高度一致性和容錯性,根據CAP理論,難以保證其可用性和擴展性。2、傳統的數據處理方法是以處理器為中心,大大增加了計算的開銷,無法適應大數據的大量非結構性數據的處理需求。
發明內容
有鑒于此,本發明提出一種基于云計算的大數據分布式處理方法及系統。
一種基于云計算的大數據分布式處理方法,其包括如下步驟:
S1、接收輸入文件,根據輸入文件大小進行輸入分片,將各個輸入分片分配一個映射任務,輸入分片存儲分片長度以及記錄數據的位置的數組;
S2、通過預先編寫的映射函數在數據存儲節點上進行映射得到中間文件;
S3、合并中間文件中的重復鍵值,以降低映射輸出文件冗余;并對合并后的鍵值進行序列化得到映射緩存文件;自動獲取各個計算節點的計算負載值,根據計算節點的計算負載值將各個映射緩存文件分配到各個計算節點中;
S4、在內存中開辟環形內存緩沖區,環形內存緩沖區用于映射輸出文件輸出;在環形內存緩沖區中創建配置文件,在配置文件中配置內存緩沖區的內存占用閾值;在環形內存緩沖區中內存占用大于或等于占用閾值時,保護線程暫停將數據寫入內存,并在內存中寫入溢出文件,溢出文件確定寫入磁盤的文件,并將環形內存緩沖區的文件寫入磁盤直至所有的映射輸出文件輸出完畢;
S5、將所有的映射輸出文件并存儲到分布式文件存儲系統上。
在本發明所述的基于云計算的大數據分布式處理方法中,所述步驟S1中對輸入文件大小進行輸入分片包括:
建立關聯關系表,將輸入文件拆分為位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值,并將各個輸入文件的各個關系值的對應關系寫入關聯關系表中;
將各個關系值對應的數據劃入輸入分片中。
在本發明所述的基于云計算的大數據分布式處理方法中,所述步驟S2包括:
通過預先編寫的映射函數將輸入分片按照映射任務進行映射,所述映射包括按照預先設置的數據格式將輸入分片內容進行列表對齊,判斷位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值是否存在,如果各個關系值存在則直接保留,如果不存在某一項或某幾項關系值,則缺失的關系值為空;各個關系的排列順序均保持一致。
在本發明所述的基于云計算的大數據分布式處理方法中,
所述步驟S5包括:
從關聯關系表中查詢各個映射輸出文件對應的所有索引信息,將各個映射輸出文件的每個對應一個段數據插入到段列表中;記錄段數據的位置關系值、活動關系值、結構關系值、功能關系值、功能關系值、行為關系值以及其他關系值。
在本發明所述的基于云計算的大數據分布式處理方法中,
所述步驟S2中對通過預先編寫的映射函數將輸入分片按照映射任務進行映射還包括根據關聯關系表判斷輸入分片是否存在邏輯錯誤,如存在則丟棄該輸入分片。
本發明還提供一種基于云計算的大數據分布式處理系統,其包括如下單元:
拆分單元,用于接收輸入文件,根據輸入文件大小進行輸入分片,將各個輸入分片分配一個映射任務,輸入分片存儲分片長度以及記錄數據的位置的數組;
映射單元,用于通過預先編寫的映射函數在數據存儲節點上進行映射得到中間文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州鐵路職業技術學院,未經鄭州鐵路職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710130418.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





