[發明專利]一種大數據量數據處理方法及系統有效
| 申請號: | 200810097594.7 | 申請日: | 2008-05-15 |
| 公開(公告)號: | CN101582064A | 公開(公告)日: | 2009-11-18 |
| 發明(設計)人: | 唐益鵬;洪文其 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 | 代理人: | 逯長明 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據量 數據處理 方法 系統 | ||
1.一種大數據量數據處理方法,其特征在于,包括:
根據原始文件命名規則分配服務器,將原始文件拆分為小文件;其中,根 據原始文件命名規則分配服務器的步驟包括:解析文件名,獲取原始文件序列 號;計算服務器的編號:原始文件序列號%待分配服務器總數+1;其中,% 表示取模運算;根據所述取模運算的結果值分配服務器;
針對拆分后的每個小文件,根據小文件命名規則再次分配服務器,對拆分 后的小文件進行處理;其中,根據小文件命名規則分配服務器的步驟包括:解 析文件名,獲取拆分后的小文件序列號;計算服務器的編號:小文件序列號% 待分配服務器總數+1;其中,%表示取模運算;根據所述取模運算的結果值分 配服務器。
2.根據權利要求1所述的方法,其特征在于,根據原始文件命名規則或 小文件命名規則分配服務器的步驟包括:
配置每臺服務器處理的數據類型;
解析文件名,獲取文件中存儲的數據類型;
根據所述配置,分配與所述文件中存儲的數據類型相對應的服務器。
3.根據權利要求1所述的方法,其特征在于,將原始文件拆分為小文件 之后,還包括:
將拆分后的小文件保存到磁盤。
4.根據權利要求1所述的方法,其特征在于,還包括:
對拆分和處理失敗的操作進行重試;其中,對拆分出錯的操作重試一次, 對處理失敗的操作重試多次。
5.根據權利要求1所述的方法,其特征在于,還包括:將所有待拆分和 待處理的文件存放在不同的目錄下。
6.根據權利要求5所述的方法,其特征在于,所述待拆分文件目錄下的 數據流程包括:
將原始文件存放到待拆分的原始文件存放目錄;
根據原始文件命名規則分配服務器之后,將待拆分文件存放到拆分文件時 的臨時目錄;
對待拆分文件進行拆分,將拆分成功的原始文件備份到完全拆分成功的原 始文件存放目錄,并將拆分后的小文件保存到分割之后的小文件存放目錄;將 重試失敗的原始文件備份到拆分文件時出錯的原始文件存放目錄。
7.根據權利要求6所述的方法,其特征在于,所述待處理文件目錄下的 數據流程包括:
根據小文件命名規則再次分配服務器之后,將所述分割之后的小文件存放 目錄下的待處理小文件存放到處理小文件時的臨時目錄;
對待處理小文件進行處理,將處理成功的小文件備份到完全處理成功的小 文件存放目錄,將進行重試的小文件備份到有部分記錄未成功處理的小文件存 放目錄,并將重試失敗的小文件備份到經過重試之后還無法處理的小文件存放 目錄。
8.一種大數據量數據處理系統,其特征在于,包括多臺服務器,每臺服 務器包括:
預處理單元,用于根據原始文件命名規則,判斷待拆分的原始文件是否屬 于自己處理,如果是,則觸發拆分單元;并根據拆分后的小文件命名規則,再 次判斷待處理的小文件是否屬于自己處理,如果是,則觸發處理單元。
拆分單元,用于將原始文件拆分為小文件;
處理單元,用于對拆分后的小文件進行處理。
9.根據權利要求8所述的系統,其特征在于:
所述預處理單元通過文件名中的原始文件序列號判斷待拆分的原始文件 是否屬于自己處理,并通過文件名中的原始文件序列號或拆分后的小文件序列 號判斷待處理的小文件是否屬于自己處理。
10.根據權利要求8所述的系統,其特征在于:
所述預處理單元通過文件中存儲的數據類型,判斷待拆分的原始文件或待 處理的小文件是否屬于自己處理時,每臺服務器還包括配置單元,用于配置自 己處理的數據類型。
11.根據權利要求8所述的系統,其特征在于,每臺服務器還包括:
存儲單元,用于將拆分后的小文件保存到磁盤。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810097594.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高壓放電燈
- 下一篇:在設計階段為生成報表單元格命名的方法





