[發明專利]一種大數據處理方法及系統在審
| 申請號: | 201610294824.3 | 申請日: | 2016-05-05 |
| 公開(公告)號: | CN107346312A | 公開(公告)日: | 2017-11-14 |
| 發明(設計)人: | 岑春祥;王升元;蘇文平;郄威;孟利青 | 申請(專利權)人: | 中國移動通信集團內蒙古有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司11270 | 代理人: | 張穎玲,蔣雅潔 |
| 地址: | 010010 內蒙古*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 系統 | ||
技術領域
本發明涉及信息處理技術領域,尤其涉及一種大數據處理方法及系統。
背景技術
在很多應用場景中,經常會有如下數據處理過程:發送方將某些不同類型的數據文件以一定的格式保存在一個文件夾中,然后將該文件夾進行壓縮后發送給接收方,在接收方接收到壓縮文件后,再對該壓縮文件中的內容進行解析,以及邏輯處理。
在上述數據處理過程中,如果數據文件不是很大,而且接收方對處理時間又沒有很高的要求時,則可采用單臺服務器或單線程進行處理。這種情況下,系統仍會運行正常,只是接收方處理這些文件數據的時間可能會較長。但是,在實際應用中,人們經常會遇到大數據量的數據處理需求,例如:學校教育人員需要逐級向教育局上報學生數據、大型網站日志的處理、以及兩個大型系統間的數據同步等等。這時,需要傳送的文件數據很大或者文件數量很多,且接收方對處理時間又有很高的要求,例如:接收方要求發送方傳送過來的文件數據必須在1分鐘內(或者更短的時間內)處理完畢。此時,如果僅依靠單臺服務器或單線程的處理系統就不能滿足上述需求了。
此外,在很多情況下,發送方到接收方的文件數據是定時傳送的,比如每5分鐘傳送一次,而接收方能夠容忍數據傳輸的最大延時是有限制的,此時,如果接收方在規定的時間間隔內處理不完這些數據,就會形成惡性循環,使得上個周期內的數據還未處理完畢,新的數據又傳送過來,這樣接收方的數據延時就會越來越多,最終出現系統崩潰的現象。
為解決上述問題,現有技術中采用K均值(K-MEANS)算法對大數據進 行聚類處理,然而該處理過程常常針對數據數量n為固定值的情況,而對于n為變化值的情況,在處理過程中,n每變化一次,例如n的值增加1個,對應的需要處理的數據就會增加一條新的數據記錄,則需要重新執行整個算法的全過程。這樣就大大增加了整個系統的操作過程,很有可能在規定時間內處理不完需要處理的數據,從而給接收方帶來很大延時。
綜上所述,采用現有技術,對于如何盡量減少系統的操作過程,在規定時間內處理完大數據量數據,緩解數據的延時處理,尚無有效的解決方案。
發明內容
有鑒于此,本發明實施例期望提供一種大數據處理方法及系統,能夠對大數據量數據進行快速、有效的處理,以解決無法在規定時間內處理完大數據量數據而造成的處理延時,以及系統崩潰的問題。
為達到上述目的,本發明實施例的技術方案是這樣實現的:
本發明實施例提供一種大數據處理方法,所述方法包括:
獲取包含不同類型大數據文件的原始文件;
將所述原始文件根據大數據文件的類型拆分為不同歸類的多個子數據文件;
對所述多個子數據文件按照不同歸類分配相應的服務器,并在不同服務器上同時對所述多個子數據文件進行處理。
上述方案中,所述獲取包含不同類型大數據文件的原始文件,包括:
創建經二次開發的實現排版功能的表格;
建立所述表格的顯示邏輯與內存數據庫之間的關聯關系;
識別對所述表格的操作命令,根據所述操作命令以及關聯關系,從所述內存數據庫中獲取包含不同類型大數據文件的原始文件,并以表格形式呈現;
其中,所述內存數據庫用于存儲不同類型的大數據文件。
上述方案中,在所述建立所述表格的顯示邏輯與內存數據庫之間的關聯關系之后,所述方法還包括:
根據所述表格的行號,對內存數據庫中的數據建立索引,并根據所述建立的索引讀取內存數據庫中相應的數據。
上述方案中,在所述將所述原始文件拆分為不同歸類的多個子數據文件時,所述方法還包括:
采集對所述原始文件拆分操作對應的sql語句;
解析出所述sql語句中的數據表以及所述數據表中的字段和字段值;
根據所述數據表以及所述數據表中的字段和字段值,自動生成代碼,并對所述生成的代碼進行編譯,生成動態鏈接庫文件或可執行程序文件,執行拆分包含大數據文件的原始文件。
上述方案中,在進行拆分操作時,若請求拆分的數量大于預定限額,查詢用戶的歷史數據;
基于所述歷史數據在聚類后的分類中查找對應分類。
本發明實施例還提供一種大數據處理系統,所述系統包括:獲取單元、拆分單元和處理單元;其中,
所述獲取單元,用于獲取包含不同類型大數據文件的原始文件;
所述拆分單元,用于將所述原始文件根據大數據文件的類型拆分為不同歸類的多個子數據文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團內蒙古有限公司,未經中國移動通信集團內蒙古有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610294824.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子地圖數據檢查方法及裝置
- 下一篇:一種帶有農家樂特色的休閑棋牌





