[發明專利]一種基于Hadoop的海量數據處理方法和裝置在審
| 申請號: | 201511009913.0 | 申請日: | 2015-12-29 |
| 公開(公告)號: | CN105512336A | 公開(公告)日: | 2016-04-20 |
| 發明(設計)人: | 王明龍;王力;彭塨燁;謝瀟宇;王偉;包辰明;趙金鑫;張舜華;陳暑生 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利代理有限公司 44202 | 代理人: | 溫旭;郝傳鑫 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 海量 數據處理 方法 裝置 | ||
技術領域
本發明涉及數據處理領域,更為具體而言,涉及一種海量數據處理方法 和裝置。
背景技術
電子商務網站相關數據處理中,通常將各個業務主庫、訪問日志、流水 日志等異步、離散的數據統一處理,實現定期地對業務流量、訪問量、用戶、 產品等體系指標的準實時和近期監控。如今,隨著電子商務的快速發展,網 站產生的數據呈爆炸式增長,如何快速高效地存儲和處理海量數據成為人們 面臨的重要技術問題。
當前主要采用關系型的數據庫對海量數據進行處理,然而傳統的關系型 數據庫都存在對數據庫事務一致性要求的問題,而在數據挖掘或者數據分析 過程中,并不需要嚴格要求數據庫事務特性和讀一致性。因此,基于關系型 的數據庫中的事務處理對于用來進行數據計算和數據挖掘而言是一個沉重的 負擔。因此,設計一套適用數據計算和挖掘的海量數據處理方案成為亟需解 決的技術問題。
發明內容
為解決上述技術問題,本發明提供了一種基于Hadoop的海量數據處理方 法和裝置。
根據本發明實施方式的第一方面,提供了一種基于Hadoop的海量數據處 理方法,該方法可包括:采集數據;將所采集的數據進行整合,將整合后的 數據存入Hbase數據庫,根據所述Hbase數據庫中數據的更新周期分別進行指 標統計,把指標統計的結果存入關系型數據庫。
在本發明的一些實施方式中,所述采集數據包括:在前端頁面嵌入 javascript腳本和rsyslog異步日志采集日志數據,和/或,通過rsync同步采集應 用服務器的業務數據。
在本發明的一些實施方式中,所述將所采集的數據進行整合是基于Flume NG框架。
在本發明的一些實施方式中,所述采集的數據在FlumeNG框架中以文件 類型的隊列進行緩存。
在本發明的一些實施方式中,所述方法還包括:將所述指標統計的結果 保存為定期快照文件,并通過BDE將所述定期快照文件向外提供。
在本發明的一些實施方式中,所述方法還包括:接收用戶輸入的查詢條 件,并根據所述查詢條件訪問所述關系型數據庫來獲取所述指標統計的結果, 然后將所述指標統計的結果向所述用戶展示。
根據本發明實施方式的第二方面,提供了一種基于Hadoop的海量數據處 理裝置,該裝置可包括:采集模塊,用于采集數據;整合模塊,用于將所述 采集模塊所采集的數據進行整合;存儲模塊,用于將所述整合模塊整合后的 數據存入Hbase數據庫,加工模塊,用于根據所述Hbase數據庫中數據的更新 周期分別進行指標統計,其中,所述存儲模塊,還用于將所述加工模塊的指 標統計的結果存入關系型數據庫。
在本發明的一些實施方式中,所述采集模塊采集數據包括:在前端頁面 嵌入javascript腳本和rsyslog異步日志采集日志數據,和/或,通過rsync同步采 集應用服務器的業務數據。
在本發明的一些實施方式中,所述整合模塊是基于FlumeNG框架。
在本發明的一些實施方式中,所述整合模塊在FlumeNG框架中以文件類 型的隊列進行緩存。
在本發明的一些實施方式中,所述加工模塊,還用于將所述指標統計的 結果保存為定期快照文件,并通過BDE將所述定期快照文件向外提供。
在本發明的一些實施方式中,所述裝置還包括:展現模塊,用于接收用 戶輸入的查詢條件,并根據所述查詢條件訪問所述關系型數據庫獲取所述指 標統計的結果,然后將所述指標統計的結果向所述用戶展示。
本發明實施方式提供的基于Hadoop的海量數據處理方法和裝置,將采集、 整合后的海量數據和將海量數據加工獲得的統計結果分別存儲到不同類型的 數據庫,改善了海量數據的數據庫管理效率的同時也方便了海量數據統計結 果的查詢和展示;而且將不同更新周期的數據通過快照的形式對外統一供數, 統一了對外供數頻率,方便海量數據的數據分析和挖掘。
附圖說明
圖1是根據本發明一種實施方式的基于Hadoop的海量數據處理方法的流 程示意圖;
圖2是根據本發明一種實施方式的基于Hadoop的海量數據處理的架構示 意圖;
圖3是根據本發明一種實施方式的基于Hadoop的海量數據處理裝置的結 構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511009913.0/2.html,轉載請聲明來源鉆瓜專利網。





