[發明專利]一種用于多并行處理框架的數據處理方法及裝置有效
| 申請號: | 201710584226.4 | 申請日: | 2017-07-18 |
| 公開(公告)號: | CN107480202B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 唐卓;劉昆昆;陳都 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/11;G06F16/2458;G06F9/54 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 龔燕妮 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 并行 處理 框架 數據處理 方法 裝置 | ||
本發明提供了一種用于多并行處理框架的數據處理方法及裝置,該方法包括:步驟S1:獲取使用環境的配置信息;步驟S2:根據所述使用環境的配置信息和底層存儲數據屬性選擇相應的數據調用方法并調用底層存儲數據,然后通過統一的格式轉換方法對獲得的底層存儲數據集中的底層存儲數據進行數據格式轉換,得到統一格式抽象數據集;步驟S3:將所述統一格式抽象數據集提供給上層應用使用。本發明通過根據使用環境配置信息和底層存儲數據存儲介質類型,選擇對應的數據調用方法并調用底層存儲數據,然后通過統一的格式轉換方法,將底層存儲數據轉換為統一格式抽象數據集并提供給上層應用使用,進一步提高多并行處理框架的擴展性、通用性和易用性。
技術領域
本發明涉及大數據多并行處理技術領域,尤其涉及一種用于多并行處理框架的數據處理方法及裝置。
背景技術
目前,大數據技術的快速發展應用給現有技術帶來了4V的挑戰:規模(Volume),從萬億字節(TB)級到千萬億字節(PB)級甚至到十萬億億字節(ZB)級別;種類(Variety),數據種類繁多,既包括傳統的結構化數據又包括諸如文本、視頻、圖片和音頻等非結構化數據,而且非結構化數據的比重在快速增加;價值(Value),數據價值密度低,難以進行預測分析、運營智能、決策支持等計算;速度(Velocity),大數據處理的速度問題愈發突出,時效性難以保證。總體來看,大數據處理技術的困境實質上是信息化設施的處理能力與數據處理的問題規模之間的矛盾,即目前的計算機系統無法有效處理PB級以上的大數據。大數據所表現出的增量速度快、時間局部性低等特點,使得以計算為中心的傳統模式面臨著內存容量有限、輸入/輸出(I/O)壓力大、緩存命中率低、數據處理的總體性能低等諸多挑戰,難以取得性能、能耗與成本的最佳平衡,大數據技術在制造業應用對現有的數據采集、處理和分析框架帶來嚴峻的挑戰:
(1)流數據、非結構化數據的處理和分析往往需要動態可擴展的計算和存儲能力,傳統的以服務器集群、SQL數據庫為主流架構的企業數據中心基礎設施無論在硬件和軟件容量上都不具備實時擴展的能力,很難滿足企業數據處理應用對資源的彈性需求;
(2)現有的面向非結構化的數據存儲架構基本上都是基于NOSQL分布式文件系統,這給傳統的以SQL數據庫編程為主要技能的程序員帶來了困擾;
(3)現有的傳統企業基于數據庫的分析和處理的應用往往不具備按數據分塊進行并行處理的能力。而Hadoop MapReduce/Spark并行編程框架對于一般的企業開發人員來說又難以短時間掌握。這使得以Hadoop/spark、Hbase等為代表的大數據并行存儲和處理框架的應用很難得到較大面積的推廣和應用;
(4)以人工智能經典算法、機器學習模型為核心的數據挖掘框架是目前進行大數據分析的主要手段。但對于傳統企業的開發人員來說,同樣面臨著人工智能算法門檻太高,難于掌握的困境,使得一般的軟件公司很難組建面向行業數據分析處理和挖掘的研發團隊。
為了面向大數據處理設計出一套合適的高速計算架構,當前國際學術界和工業界主要從系統軟件、體系結構、分布式系統等方面進行了改進和優化:
(1)在系統軟件方面,人們主要提出了以內存數據庫及編譯器優化等技術來應對大數據處理難題。內存數據庫(如H-store)將相關數據加載到內存中,從而不需要引入磁盤I/O的開銷。但是它提供了原子性、一致性、隔離性和持久性保證,使得對一致性要求較弱的應用支付了不必要的開銷,限制了系統的可擴展性。另外也有從編譯方面進行優化的,比如PeriSCOPE通過數據類型及數據大小確定最小的數據傳輸流。
(2)在系統結構方面,主要通過采取增加內存、增加處理器和協處理器以及增加I/O通道來緩解大數據處理帶來的挑戰。但是這些增加又為體系結構的改進帶來了成本與能耗的增加。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710584226.4/2.html,轉載請聲明來源鉆瓜專利網。





