[發(fā)明專利]基于流式計算的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)、計算機程序在審
| 申請?zhí)枺?/td> | 201810028931.0 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108108488A | 公開(公告)日: | 2018-06-01 |
| 發(fā)明(設(shè)計)人: | 喻銀根;朱秀松;程國艮 | 申請(專利權(quán))人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬貝專利代理事務(wù)所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 流式 數(shù)據(jù)統(tǒng)計分析 分類 計算機程序 聚合 數(shù)據(jù)分析技術(shù) 分類存儲 數(shù)據(jù)通過 統(tǒng)計結(jié)果 保存 緯度 分析 篩選 分組 統(tǒng)計 | ||
1.一種基于流式計算的數(shù)據(jù)統(tǒng)計分析方法,其特征在于,所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法為:
通過爬蟲進行數(shù)據(jù)的獲取;
通過數(shù)據(jù)的屬性、特性、分類屬性、不同的時間緯度進行將同樣屬性的數(shù)據(jù)進行加法統(tǒng)計,將數(shù)據(jù)時間格式化后進行時間的數(shù)據(jù)統(tǒng)計,將同分類進行統(tǒng)計計算,或者將多種屬性當做唯一值進行統(tǒng)計,如:將新聞類,2018年1月1日中國數(shù)據(jù)進行數(shù)據(jù)量統(tǒng)計,美國數(shù)據(jù)進行數(shù)據(jù)量統(tǒng)計;
將統(tǒng)計結(jié)果進行分類存儲。
2.如權(quán)利要求1所述的基于流式計算的數(shù)據(jù)統(tǒng)計分析方法,其特征在于,所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法具體包括:
將接收的數(shù)據(jù)放到流式任務(wù)中;首先進行數(shù)據(jù)分類,將同樣的分類的數(shù)據(jù)進行計算并保存,然后,根據(jù)保存的結(jié)果進行聚合獲得分析結(jié)果;
數(shù)據(jù)分類包括把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,進行區(qū)別;
數(shù)據(jù)分類中,遵循約定的分類原則,按照數(shù)據(jù)的內(nèi)涵、性質(zhì)及管理的要求,將所有數(shù)據(jù)按一定的結(jié)構(gòu)體系分為不同的集合,使每個數(shù)據(jù)在相應(yīng)的分類體系中都有一個對應(yīng)位置。
3.如權(quán)利要求1所述的基于流式計算的數(shù)據(jù)統(tǒng)計分析方法,其特征在于,所述不同的時間緯度包括:字符型定性維度和數(shù)值型定量維度;
所述通過數(shù)據(jù)的屬性、特性、分類屬性、不同的時間緯度進行聚合、計算、統(tǒng)計;具體包括:
對定量維度做數(shù)值型數(shù)據(jù)離散化,并根據(jù)時間進行最細的流水統(tǒng)計;接著,把流水數(shù)據(jù)進行持久化保存;
當需要對保存的數(shù)據(jù)中其中的一個字符型定性維度進行分析時,對持久化數(shù)據(jù)的結(jié)果進行單維度的聚合,獲得到計算分析的結(jié)果;保存結(jié)果為時間、國家、分類統(tǒng)計,而我們需要對國家數(shù)據(jù)量進行分析時,就只需要根據(jù)國家數(shù)據(jù)量進行數(shù)據(jù)聚合,就可以得到我們需要的數(shù)據(jù)。
4.一種實現(xiàn)權(quán)利要求1~3任意一項所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法的計算機程序。
5.一種實現(xiàn)權(quán)利要求1~3任意一項所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法的信息數(shù)據(jù)處理終端。
6.一種計算機可讀存儲介質(zhì),包括指令,當其在計算機上運行時,使得計算機執(zhí)行如權(quán)利要求1-3任意一項所述的基于流式計算的數(shù)據(jù)統(tǒng)計分析方法。
7.一種如權(quán)利要求1所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法的基于流式計算的數(shù)據(jù)統(tǒng)計分析系統(tǒng),其特征在于,所述基于流式計算的數(shù)據(jù)統(tǒng)計分析系統(tǒng)包括:
接收數(shù)據(jù)模塊:用于接收數(shù)據(jù)供應(yīng)提供的數(shù)據(jù);
數(shù)據(jù)分類模塊:用于將數(shù)據(jù)根據(jù)各種分類進行處理;
數(shù)據(jù)計算模塊:用于根據(jù)數(shù)據(jù)的分類將數(shù)據(jù)進行分類分緯度計算;
數(shù)據(jù)保存模塊:將計算結(jié)果進行保存;
二次聚合模塊:通過保存結(jié)果的不同緯度分類,進行二次聚合,并獲得需要的結(jié)果。
8.一種搭載有權(quán)利要求7所述基于流式計算的數(shù)據(jù)統(tǒng)計分析系統(tǒng)的信息數(shù)據(jù)處理終端。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中譯語通科技股份有限公司,未經(jīng)中譯語通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810028931.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種區(qū)塊鏈的共識方法
- 下一篇:基于地理位置的POI檢索方法和裝置
- 用于對在移動分組無線電系統(tǒng)中的流式連接計費的方法和系統(tǒng)
- 一種氣流式霧化器
- 流式計算任務(wù)的分配方法和控制服務(wù)器
- 水洗單元水循環(huán)使用回收系統(tǒng)
- 一種用于芝麻聯(lián)合收獲機的脫粒滾筒組合裝置
- 一種流式數(shù)據(jù)的治理方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種用于芝麻聯(lián)合收獲機的脫粒滾筒組合裝置
- 多數(shù)據(jù)流處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種流式數(shù)據(jù)存儲方法、讀取方法、設(shè)備及可讀存儲介質(zhì)
- 一種流式分析儀的樣本制備裝置及制備方法
- 網(wǎng)管數(shù)據(jù)統(tǒng)計分析指標的處理方法和裝置、數(shù)據(jù)管理系統(tǒng)
- 一種數(shù)據(jù)統(tǒng)計方法及裝置
- 數(shù)據(jù)統(tǒng)計分析方法和裝置
- 一種分布式光伏電源的統(tǒng)計分析方法
- 用于智能終端的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)
- 一種不銹鋼表面檢測結(jié)果綜合分析系統(tǒng)
- 一種集抄數(shù)據(jù)分析管理系統(tǒng)
- 一種基于大數(shù)據(jù)的經(jīng)濟數(shù)據(jù)統(tǒng)計分析裝置
- 無線通訊設(shè)備的管理系統(tǒng)、方法、存儲介質(zhì)及終端設(shè)備
- 醫(yī)療數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 操縱計算機文件和/或程序的系統(tǒng)和方法
- 一種升級計算機固件程序的方法
- 可編程縫紉機系統(tǒng)及用于該縫紉機系統(tǒng)中的數(shù)據(jù)載體
- 一種基于網(wǎng)絡(luò)的計算機信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計算機信息檢索系統(tǒng)與方法
- 用于在執(zhí)行程序模塊時檢測惡意計算機代碼的方法和系統(tǒng)
- 用于檢測執(zhí)行程序模塊中的惡意計算機代碼的方法和系統(tǒng)
- 用于保護計算機程序免受影響的方法和計算機系統(tǒng)
- 信息處理系統(tǒng)和信息處理方法





