[發明專利]一種基于Hadoop云平臺的海量數據比對方法及系統在審
| 申請號: | 201410602807.2 | 申請日: | 2014-10-31 |
| 公開(公告)號: | CN104317942A | 公開(公告)日: | 2015-01-28 |
| 發明(設計)人: | 何攀 | 申請(專利權)人: | 北京思特奇信息技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 100086 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 平臺 海量 數據 方法 系統 | ||
1.一種基于Hadoop云平臺的海量數據比對方法,其特征在于,包括:
步驟1,將海量數據按區間標尺切分為若干份,并利用云比較引擎對每份數據進行排序,輸出對應數量的內部有序的文件,再將該內部有序的文件放至基于Hadoop云平臺的分布式文件系統中,作為源數據比對文件;
步驟2,當有比對任務時,分布式文件系統通過其主任務節點來調度和控制其余任務節點執行任務文件;
步驟3,每個任務節點找出其要執行的任務文件,與源數據比對文件進行比對,將比對的文件中的相同記錄放至同一個文件中,并將比對的文件中的差異記錄放到設定的差異文件中;
步驟4,各任務節點完成文件比對后,主任務節點對各任務節點的比對結果進行合并和輸出。
2.根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于,所述步驟1中將內部有序的文件放至分布式文件系統中具體包括:根據文件個數和用戶自定義文件大小設計數據量分布算法,按數據量分布算法將內部有序的文件存儲至分布式文件系統中。
3.根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于,所述步驟2還包括:所述主任務節點還用于監控其余任務節點的運行狀況,當有任務節點出現故障時,主任務節點將出現故障的任務節點負責的任務轉交給空閑的任務節點重新運行。
4.根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于,所述步驟3中比對文件是否有相同記錄是通過比對文件的排序字段實現的,若排序字段相同則為相同記錄,否則為差異記錄。
5.根據權利要求1或4所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于,累加所有存儲相同記錄的文件,若累加值大于設定值,則將所述相同記錄單獨輸出至新建的另一個文件中。
6.根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于,所述步驟4中主任務節點對各任務節點的比對結果進行合并,具體包括:假定源數據比對文件為A,任務節點上要執行的任務文件為B,則將比對結果合并為三個文件,第一個文件用于存儲相同記錄,第二個文件用于存儲A比B多和B除主鍵相同外屬性不一致的數據,第三文件用于存儲B比A多和A除主鍵相同外屬性不一致的數據。
7.一種基于Hadoop云平臺的海量數據比對系統,其特征在于,包括:
源數據處理模塊,用于將海量數據按區間標尺切分為若干份,并利用云比較引擎對每份數據進行排序,輸出對應數量的內部有序的文件,再將該內部有序的文件放至基于Hadoop云平臺的分布式文件系統中,作為源數據比對文件;
節點分配模塊,用于當有比對任務時,調用分布式文件系統通過其主任務節點來調度和控制其余任務節點執行任務文件;
比對模塊,用于調用每個任務節點找出其要執行的任務文件,與源數據比對文件進行比對,將比對的文件中的相同記錄放至同一個文件中,并將比對的文件中的差異記錄放到設定的差異文件中;
輸出模塊,用于在各任務節點完成文件比對后,調用主任務節點對各任務節點的比對結果進行合并和輸出。
8.根據權利要求7所述的一種基于Hadoop云平臺的海量數據比對系統,其特征在于,所述源數據處理模塊中將內部有序的文件放至分布式文件系統中具體包括:根據文件個數和用戶自定義文件大小設計數據量分布算法,按數據量分布算法將內部有序的文件放至分布式文件系統中。
9.根據權利要求7所述的一種基于Hadoop云平臺的海量數據比對系統,其特征在于,所述主任務節點還用于監控其余任務節點的運行狀況,當有任務節點出現故障時,主任務節點將出現故障的任務節點負責的任務轉交給空閑的任務節點重新運行。
10.根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于,所述輸出模塊中主任務節點對各任務節點的比對結果進行合并具體包括:假定源數據比對文件為A,任務節點上要執行的任務文件為B,則將比對結果合并為三個文件,第一個文件用于存儲相同記錄,第二個文件用于存儲A比B多和B除主鍵相同外屬性不一致的數據,第三文件用于存儲B比A多和A除主鍵相同外屬性不一致的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京思特奇信息技術股份有限公司,未經北京思特奇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410602807.2/1.html,轉載請聲明來源鉆瓜專利網。





