[發明專利]Hadoop多管道數據處理分析方法在審
| 申請號: | 201710347164.5 | 申請日: | 2017-05-17 |
| 公開(公告)號: | CN107193926A | 公開(公告)日: | 2017-09-22 |
| 發明(設計)人: | 林森;唐寧;馬娜 | 申請(專利權)人: | 北京快友世紀科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | hadoop 管道 數據處理 分析 方法 | ||
技術領域
本發明涉及數據處理技術領域,具體涉及一種Hadoop多管道數據處理分析方法。
背景技術
Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。Hadoop主要有以下幾個優點:
1、高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
2、高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以干計的節點中。
3、高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非???。
4、高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
5、低成本。與一體機、商用數據倉庫以及QlikView、YonghongZ-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
Hadoop設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。到目前為止,Hadoop技術在互聯網領域已經得到了廣泛的運用,例如,Yahoo使用4000個節點的Hadoop集群來支持廣告系統和Web搜索的研究;Facebook使用1000個節點的集群運行Hadoop,存儲日志數據,支持其上的數據分析和機器學習;百度用Hadoop處理每周200TB的數據,從而進行搜索日志分析和網頁數據挖掘工作;中國移動研究院基于Hadoop開發了″大云″(Big Cloud)系統,不但用于相關數據分析,還對外提供服務;淘寶的Hadoop系統用于存儲并處理電子商務交易的相關數據。國內的高校和科研院所基于Hadoop在數據存儲、資源管理、作業調度、性能優化、系統高可用性和安全性方面進行研究,相關研究成果多以開源形式貢獻給Hadoop社區。
使用MapReduce編程模型是處理Hadoop多管道數據的一種方式。雖然采用MapReduce編程模型處理Hadoop多管道數據能夠獲得計算優勢,但是并沒有充分考慮分布式程序的有效運行。MapReduce編程模型在處理以小的數據塊所存儲的數據文件時,會啟動更多的映射(map)任務,但也會造成較大的開銷。當采用大塊時,可以減少客戶端與主服務器通訊的需求,也會降低主服務器需要保存的元數據的空間,卻不能有效地利用可用的并行計算資源。
發明內容
為了克服現有技術中存在的問題,本發明提供一種Hadoop多管道數據處理分析方法,該方法利用MapReduce編程模型來處理海量數據,在設計時只需考慮事務的分配策略與MapReduce函數對的設計,而對于其他并行計算中的復雜問題,如工作調動、容錯處理、分布式存儲、網絡通信等則交給Hadoop平臺進行處理。因此,能夠改善大數據的更新分析處理效率。
為實現上述目的,本發明提供一種Hadoop多管道數據處理分析方法,該方法利用服務器中的MapReduce編程模型來處理海量數據,所述的服務器包括外部設備、處理單元、總線、網絡適配器、I/O接口和系統存儲器,處理單元、網絡適配器、I/O接口和系統存儲器均通過總線連接并通信,外部設備與I/O接口連接,所述的MapReduce編程模型設置在服務器的系統存儲器中;該方法包括以下步驟:
第一、利用外部設備輸入大數據文件,MapReduce編程模型將輸入的大數據文件分成若干獨立的數據,并在不同的機器上進行程序數據的備份;
第二、分配事務,MapReduce編程模型中的主程序節點分配子事務,并將子事務通過網絡適配器遞交給空閑的工作機節點中;
第三、生成鍵/值對,被分配了子事務的工作機節點讀取輸入的大數據文件,從中解析出鍵/值對,并調用用戶編寫的Map函數處理鍵/值對,并生成中間鍵/值對;
第四、發送消息,分區函數將所述的中間鍵/值對分成若干區,將各個區在磁盤中的位置信息發送給主程序,然后轉發給Reduce子事務節點;
第五、調用中間數據,Reduce子事務節點獲取由主程序轉發的子事務后,根據位置信息調用磁盤上的中間數據,并對這些中間數據按照key值進行排序,相同的key值進行合并操作;
第六、執行Reduce函數,Reduce子事務節點遍歷排序后的中間數據,并將數據傳遞給用戶定義的Reduce函數,執行結果將被輸出到最終的輸出文件中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京快友世紀科技股份有限公司,未經北京快友世紀科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710347164.5/2.html,轉載請聲明來源鉆瓜專利網。





