[發明專利]一種大數據量數據處理方法及系統有效
| 申請號: | 200810097594.7 | 申請日: | 2008-05-15 |
| 公開(公告)號: | CN101582064A | 公開(公告)日: | 2009-11-18 |
| 發明(設計)人: | 唐益鵬;洪文其 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 | 代理人: | 逯長明 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據量 數據處理 方法 系統 | ||
技術領域
本發明涉及數據處理技術,特別是涉及一種大數據量數據處理方法及系 統。
背景技術
在很多應用場景中,經常會有如下的數據處理過程:發送方將某些數據以 一定的格式保存在一個文件中,然后將文件發送給接收方,接收方接收到文件 之后對文件中的內容進行解析,并進行相應的邏輯處理。
在上述數據處理過程中,如果文件不是很大,而且接收方對處理時間又沒 有很高的要求,則此時可以用單臺服務器或單線程進行處理。這種情況下,系 統仍會運行正常,但接收方處理這些文件數據的時間可能較長。但是,如果文 件很大或者文件數量很多,而接收方對處理時間又有很高的要求,例如接收方 要求對于發送方傳輸過來的文件數據必須在1分鐘內(或者更短時間內)處理 完畢。此時,單臺服務器或單線程的處理系統就不能滿足需求。
很多情況下,發送方到接收方的文件數據是定時傳送的,比如5分鐘一次, 而接收方能夠容忍的數據最大延時是有限制的,此時如果接收方對傳送的數據 在間隔期內處理不完,就會形成惡性循環,上個周期內的數據還未處理完畢, 新的數據又傳送過來,這樣接收方的數據延時就會越來越多,最后出現系統崩 潰。
在很多大型應用中,都會出現這種大數據量的數據處理需求,例如在教育 行業學校需要逐級向教育局上報學生數據,大型網站日志的處理,兩個系統間 的數據同步,等等。因此,需要提供一種能夠在規定時間內處理大數據量數據 的方法,緩解數據的延時處理。
發明內容
本發明所要解決的技術問題是提供一種大數據量數據處理方法及系統,以 解決大數據量數據無法在規定時間內處理造成處理延時,最后造成系統崩潰的 問題。
為解決上述技術問題,根據本發明提供的具體實施例,本發明公開了以下 技術方案:
一種大數據量數據處理方法,包括:
根據原始文件命名規則分配服務器,將原始文件拆分為小文件;
針對拆分后的每個小文件,根據小文件命名規則再次分配服務器,對拆分 后的小文件進行處理。
其中,根據原始文件命名規則或小文件命名規則分配服務器的步驟包括: 解析文件名,獲取原始文件序列號;計算:原始文件序列號%待分配服務器 總數+1;其中,%表示取模運算;根據所述計算結果值分配服務器。
其中,根據原始文件命名規則或小文件命名規則分配服務器的步驟包括: 配置每臺服務器處理的數據類型;解析文件名,獲取文件中存儲的數據類型; 根據所述配置,分配與所述文件中存儲的數據類型相對應的服務器。
其中,根據小文件命名規則分配服務器的步驟包括:解析文件名,獲取拆 分后的小文件序列號;計算:小文件序列號%待分配服務器總數+1;其中, %表示取模運算;根據所述計算結果值分配服務器。
優選的,將原始文件拆分為小文件之后,還包括:將拆分后的小文件保存 到磁盤。
優選的,所述方法還包括:對拆分和處理失敗的操作進行重試;其中,對 拆分出錯的操作重試一次,對處理失敗的操作重試多次。
優選的,所述方法還包括:將所有待拆分和待處理的文件存放在不同的目 錄下。
其中,所述待拆分文件目錄下的數據流程包括:將原始文件存放到“待拆 分的原始文件存放目錄”;根據原始文件命名規則分配服務器之后,將待拆分 文件存放到“拆分文件時的臨時目錄”;對待拆分文件進行拆分,將拆分成功的 原始文件備份到“完全拆分成功的原始文件存放目錄”,并將拆分后的小文件保 存到“分割之后的小文件存放目錄”;將重試失敗的原始文件備份到“拆分文件 時出錯的原始文件存放目錄”。
其中,所述待處理文件目錄下的數據流程包括:根據小文件命名規則再次 分配服務器之后,將“分割之后的小文件存放目錄”下的待處理小文件存放到 “處理小文件時的臨時目錄”;對待處理小文件進行處理,將處理成功的小文件 備份到“完全處理成功的小文件存放目錄”,將進行重試的小文件備份到“有部 分記錄未成功處理的小文件存放目錄”,并將重試失敗的小文件備份到“經過重 試之后還無法處理的小文件存放目錄”。
一種大數據量數據處理系統,包括多臺服務器,每臺服務器包括:
預處理單元,用于根據原始文件命名規則,判斷待拆分的原始文件是否屬 于自己處理,如果是,則觸發拆分單元;并根據拆分后的小文件命名規則,再 次判斷待處理的小文件是否屬于自己處理,如果是,則觸發處理單元。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810097594.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高壓放電燈
- 下一篇:在設計階段為生成報表單元格命名的方法





