[發明專利]一種數據處理的方法及裝置有效
| 申請號: | 201310268334.2 | 申請日: | 2013-06-28 |
| 公開(公告)號: | CN104252486B | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 王立;劉立川 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
技術領域
本申請涉及計算機技術領域,尤其涉及一種數據處理的方法及裝置。
背景技術
在大規模計算領域,云計算正受到人們的強烈關注,作為云計算的核心技術,MapReduce(映射化簡)也受到了廣泛關注。MapReduce系統通過Map(映射)和Reduce(化簡)這樣兩個簡單的概念來構成運算基本單元。用戶只需編寫Map函數和Reduce函數即可實現對大規模海量數據集的并行處理。MapReduce系統可以根據輸入數據的大小及作業的配置等信息,自動將該作業初始化為多個相同的Map任務和Reduce任務,分別讀取不同的輸入數據塊并調用Map函數和Reduce函數進行處理。
在現階段的實際應用中,MapReduce數據處理系統通常設置為定時運行的狀態,例如每天運行。MapReduce數據處理過程的輸入數據,通常是一段時間內積累的數據,例如,最近15天積累的數據。對這樣的數據進行MapReduce處理的特點是,本次的MapReduce數據處理過程的輸入數據與上一次的數據處理過程的輸入數據大部分是相同的,只有部分數據在本次MapReduce數據處理過程被刪除,以及/或者本次MapReduce數據處理過程又新增部分數據。對于這樣的MapReduce數據處理,當前的應用中都忽略了輸入數據的這個性質,從而對所有數據進行完整的MapReduce處理。然而,很多數據其實在相鄰的兩次MapReduce處理過程中是不變的,對這些數據的處理計算工作其實是重復的,浪費了計算資源。
發明內容
本申請為克服上述缺陷,提供一種數據處理的方法及裝置,以避免重復處理不變的數據的流程。
根據本申請的一個方面,提供一種數據處理的方法,包括:比較前次處理的第一輸入數據和本次需要處理的第二輸入數據,以獲得變化數據,所述變化數據包括所述第二輸入數據相對于所述第一輸入數據的被刪除數據和新添加數據;對所述被刪除數據和新添加數據進行第一處理,以獲得被刪除數據鍵索引集和新添加數據鍵索引集,以及分別與所述被刪除數據鍵索引集和新添加數據鍵索引集相對應的以鍵為索引的被刪除映射數據集和新添加映射數據集;從以鍵為索引的第一映射數據集中刪除與所述被刪除映射數據集中的被刪除映射數據相對應的映射數據,并將所述新添加映射數據集中的新添加映射數據添加到所述第一映射數據集中,以形成與所述第二輸入數據相對應的以鍵為索引的第二映射數據集,其中,所述第一映射數據集分別與第一輸入數據、以鍵為索引的第一輸出數據相對應;對所述第二映射數據集中與所述被刪除數據鍵索引集和所述新添加數據鍵索引集相對應的映射數據進行第二處理以獲得以鍵為索引的變化輸出數據;以及將所述第一輸出數據中與所述變化輸出數據的鍵索引相應的要被替換輸出數據替換成所述變化輸出數據以得到本次處理過程的以鍵為索引的第二輸出數據。
根據本申請的實施例,在該方法中,所述新添加映射數據集、第一映射數據集、第二映射數據集分別包括至少一個數據子集,其中,與相同的鍵對應的數據在以該鍵為索引的一個數據子集中。
根據本申請的實施例,在該方法中,對所述第二映射數據集中與所述被刪除數據鍵索引集和所述新添加數據鍵索引集相對應的映射數據進行第二處理以獲得以鍵為索引的變化輸出數據的步驟,包括:確定所述第二映射數據集中與所述被刪除數據鍵索引集和所述新添加數據鍵索引集中的鍵索引相同的變化數據子集;對所述變化數據子集進行第二處理以獲得以鍵為索引的變化輸出數據。
根據本申請的實施例,在該方法中,將所述第一輸出數據中與所述變化輸出數據的鍵索引相應的要被替換輸出數據替換成所述變化輸出數據以得到本次處理過程的以鍵為索引的第二輸出數據的步驟,包括:在所述第一輸出數據中查找與所述變化輸出數據中各個鍵相同的要被替換輸出數據;將所述要被替換輸出數據替換成所述變化輸出數據,并將替換后的第一輸出數據作為本次處理過程的第二輸出數據。
根據本申請的實施例,在該方法中,所述被刪除數據為所述第一輸入數據中出現的而在所述第二輸入數據中未出現的數據;所述新添加數據為所述第一輸入數據中未出現的而在所述第二輸入數據中出現的數據。
根據本申請的實施例,在該方法中,所述第一處理包括:基于所要處理的數據提取鍵值對,以獲得以鍵為索引的鍵索引集,并形成以鍵為索引的映射數據集;并且其中,所述第一處理還包括:提取所要處理的數據的記錄標記,所述記錄標記包括:文件路徑、行號;所述第二處理包括:對所要處理的數據根據預定規則進行處理,獲得以鍵為索引的輸出數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310268334.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種反恐路障
- 下一篇:龍門式路錐自動收放裝置





