[發明專利]Hadoop多管道數據處理分析方法在審
| 申請號: | 201710347164.5 | 申請日: | 2017-05-17 |
| 公開(公告)號: | CN107193926A | 公開(公告)日: | 2017-09-22 |
| 發明(設計)人: | 林森;唐寧;馬娜 | 申請(專利權)人: | 北京快友世紀科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | hadoop 管道 數據處理 分析 方法 | ||
1.一種Hadoop多管道數據處理分析方法,其特征在于,該方法利用服務器中的MapReduce編程模型來處理海量數據,所述的服務器包括外部設備、處理單元、總線、網絡適配器、I/O接口和系統存儲器,處理單元、網絡適配器、I/O接口和系統存儲器均通過總線連接并通信,外部設備與I/O接口連接,所述的MapReduce編程模型設置在服務器的系統存儲器中;該方法包括以下步驟:
第一、利用外部設備輸入大數據文件,MapReduce編程模型將輸入的大數據文件分成若干獨立的數據,并在不同的機器上進行程序數據的備份;
第二、分配事務,MapReduce編程模型中的主程序節點分配子事務,并將子事務通過網絡適配器遞交給空閑的工作機節點中;
第三、生成鍵/值對,被分配了子事務的工作機節點讀取輸入的大數據文件,從中解析出鍵/值對,并調用用戶編寫的Map函數處理鍵/值對,并生成中間鍵/值對;
第四、發送消息,分區函數將所述的中間鍵/值對分成若干區,將各個區在磁盤中的位置信息發送給主程序,然后轉發給Reduce子事務節點;
第五、調用中間數據,Reduce子事務節點獲取由主程序轉發的子事務后,根據位置信息調用磁盤上的中間數據,并對這些中間數據按照key值進行排序,相同的key值進行合并操作;
第六、執行Reduce函數,Reduce子事務節點遍歷排序后的中間數據,并將數據傳遞給用戶定義的Reduce函數,執行結果將被輸出到最終的輸出文件中;
第七、輸出結果,當所有的Reduce子事務完成后,主程序節點將所有數據返回給用戶程序,用戶程序合并數據并輸出最終數據。
2.如權利要求1所述的Hadoop多管道數據處理分析方法,其特征在于,所述的外部設備包括U盤或光驅。
3.如權利要求1所述的Hadoop多管道數據處理分析方法,其特征在于,所述的系統存儲器包括存儲系統、RAM、高速緩存和程序模塊,所述的MapReduce編程模型設置在程序模塊中。
4.如權利要求1或2或3所述的Hadoop多管道數據處理分析方法,其特征在于,所述的程序模塊中還存儲有操作系統、一個或多個應用程序以及程序數據。
5.如權利要求4所述的Hadoop多管道數據處理分析方法,其特征在于,所述的總線包括工業標準體系結構總線、微通道體系結構總線、增強型ISA總線、視頻電子標準協會局域總線以及外圍組件互聯總線。
6.如權利要求4所述的Hadoop多管道數據處理分析方法,其特征在于,所述的服務器能夠通過I/O接口與網卡或調制解調器進行通信。
7.如權利要求4所述的Hadoop多管道數據處理分析方法,其特征在于,所述的服務器能夠通過網絡適配器與一個或多個局域網、廣域網和/或公共網絡通信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京快友世紀科技股份有限公司,未經北京快友世紀科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710347164.5/1.html,轉載請聲明來源鉆瓜專利網。





