[發(fā)明專利]基于云計算的數(shù)據(jù)分析系統(tǒng)SRC無效
| 申請?zhí)枺?/td> | 201210422274.0 | 申請日: | 2012-10-29 |
| 公開(公告)號: | CN103793204A | 公開(公告)日: | 2014-05-14 |
| 發(fā)明(設計)人: | 朱志國 | 申請(專利權)人: | 順軟科技發(fā)展(大連)有限公司 |
| 主分類號: | G06F9/38 | 分類號: | G06F9/38 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李洪福 |
| 地址: | 116023 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 數(shù)據(jù) 分析 系統(tǒng) src | ||
1.一種基于云計算的數(shù)據(jù)分析系統(tǒng)SRC,其特征在于包括如下系統(tǒng):
(1)數(shù)據(jù)采集子系統(tǒng):此子系統(tǒng)的工作主要由部署在城域網(wǎng)骨干層的DPI設備完成;DPI設備首先按照一定比例采集捕捉到的IP數(shù)據(jù)包,并拆包提取、檢驗數(shù)據(jù)是否為分析范圍數(shù)據(jù);如果數(shù)據(jù)符合提取條件,DPI設備將該數(shù)據(jù)包信息按照規(guī)定的格式保存到一條信息記錄當中,當提取并生成的記錄達到一定數(shù)量時,DPI設備將這些記錄按照預定義命名規(guī)則保存到寬帶日志文件中;
(2)數(shù)據(jù)下載子系統(tǒng):由于數(shù)據(jù)采集子系統(tǒng)與應用訪問子系統(tǒng)通常部署在不同的機房或者不同地域,需要由數(shù)據(jù)下載子系統(tǒng)按照固定的周期將數(shù)據(jù)采集子系統(tǒng)生成的日志文件下載到SRC分析系統(tǒng)數(shù)據(jù)存儲平臺;SRC系統(tǒng)采用FTP方式每天定時下載采集子系統(tǒng)生成的日志數(shù)據(jù)并保存到SRC系統(tǒng)存儲平臺的HDFS中;
(3)ETL子系統(tǒng):此子系統(tǒng)為SRC功能模塊的中樞,經(jīng)過數(shù)據(jù)預處理、數(shù)據(jù)轉換、數(shù)據(jù)清洗處理以及結果轉存等步驟將大量原始日志數(shù)據(jù)轉換為供應用子系統(tǒng)使用的精簡有效數(shù)據(jù),最終將精簡處理結果轉存到MySQL數(shù)據(jù)當中;在實現(xiàn)過程中ETL子系統(tǒng)通過調用Cloudbase數(shù)據(jù)倉庫接口,大大簡化了實現(xiàn)ETL功能程序的復雜度;
Cloudbase是運行在Hadoop上的數(shù)據(jù)倉庫軟件,可以輕易地使用SQL語句對存儲在Hadoop?HDFS中的資料進行分析,分析的主要任務是剔除無效數(shù)據(jù),并根據(jù)有效記錄的關鍵字段進行有效記錄合并;每次利用Cloudbase進行SQL語言查詢時,Cloudbase會將SQL語句轉換為MapReduce分布式并行計算任務來執(zhí)行,采用MapReduce并行計算處理方式一方面克服了單機硬件配置的瓶頸,另一方面大大提高了系統(tǒng)處理能力,縮短了處理時間;
(4)應用子系統(tǒng):應用子系統(tǒng)就是為最終用戶提供各種寬帶分析功能的訪問層,包括電子渠道分析、電子渠道對比、3G移動業(yè)務分析、報表查詢搜索等功能模塊,主要負責提供友好的用戶訪問界面與處理業(yè)務功能訪問請求,并將用戶請求處理結果呈現(xiàn)給最終用戶;
(5)系統(tǒng)管理子系統(tǒng):包括用戶管理、權限管理、數(shù)據(jù)管理以及系統(tǒng)監(jiān)控模塊;其中數(shù)據(jù)管理功能實現(xiàn)對HDFS中日志數(shù)據(jù)和MySQL數(shù)據(jù)庫中精簡數(shù)據(jù)及挖掘數(shù)據(jù)的管理;
(6)數(shù)據(jù)訪問接口層:主要是提供訪問CloudBase倉庫、Mysql數(shù)據(jù)庫以及ETL程序簡單調用的抽象接口;借助對數(shù)據(jù)庫、數(shù)據(jù)倉庫中數(shù)據(jù)表的Select、Insert、Update、Delete等基本操作的封裝,為上層應用子系統(tǒng)應用業(yè)務邏輯控制模塊提供簡單調用,從而降低應用子系統(tǒng)訪問數(shù)據(jù)以及調用ETL子系統(tǒng)的復雜度。
2.根據(jù)權利要求1所述的一種基于云計算的數(shù)據(jù)分析系統(tǒng)SRC,其特征在于:系統(tǒng)每天凌晨自動下載電信公司機房DPI設備采集的日志數(shù)據(jù),ETL子系統(tǒng)數(shù)據(jù)處理任務由3臺Hadoop集群完成,系統(tǒng)每小時能夠處理原始數(shù)據(jù)量大約為4.2GB,經(jīng)過數(shù)據(jù)預處理、抽取、清洗工作流程后得到的有效數(shù)據(jù)為200MB左右,壓縮比可達1/200;由于SRC基于Hadoop并行分布式處理平臺構建,因此可以快速實現(xiàn)在線橫向擴展,而完成此項工作原有系統(tǒng)處理能力為2GB/h,同時系統(tǒng)無法實現(xiàn)實時的橫向擴展。
3.根據(jù)權利要求1所述的一種基于云計算的數(shù)據(jù)分析系統(tǒng)SRC,其特征在于:最終電信企業(yè)網(wǎng)絡管理員或者其他電子渠道經(jīng)驗者用戶可以通過瀏覽器訪問系統(tǒng),獲取寬帶用戶訪問網(wǎng)上營業(yè)廳等電子渠道的統(tǒng)計分析結果,系統(tǒng)同時提供PDF文件下載功能,方便用戶獲取、打印統(tǒng)計報表;由于Hadoop具有較為靈活的伸縮性,當需要處理的原始數(shù)據(jù)迅速增加時,系統(tǒng)可以快速擴展Hadoop集群節(jié)點數(shù)量,提高系統(tǒng)處理能力;同時當處理任務較少時,也可以即時減少Hadoop系統(tǒng)工作節(jié)點,因此系統(tǒng)具有較為靈活的擴展性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于順軟科技發(fā)展(大連)有限公司,未經(jīng)順軟科技發(fā)展(大連)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210422274.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:將SVG圖形轉換為Visio圖形的方法
- 下一篇:一種多媒體電子地圖
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





