[發(fā)明專利]基于流式計算的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)、計算機程序在審
| 申請?zhí)枺?/td> | 201810028931.0 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108108488A | 公開(公告)日: | 2018-06-01 |
| 發(fā)明(設(shè)計)人: | 喻銀根;朱秀松;程國艮 | 申請(專利權(quán))人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 流式 數(shù)據(jù)統(tǒng)計分析 分類 計算機程序 聚合 數(shù)據(jù)分析技術(shù) 分類存儲 數(shù)據(jù)通過 統(tǒng)計結(jié)果 保存 緯度 分析 篩選 分組 統(tǒng)計 | ||
本發(fā)明屬于數(shù)據(jù)分析技術(shù)領(lǐng)域,公開了一種基于流式計算的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)、計算機程序,通過指定的條件進行數(shù)據(jù)的篩選;將數(shù)據(jù)通過不同規(guī)則,不同的時間緯度進行聚合、計算、統(tǒng)計;將統(tǒng)計結(jié)果進行分類存儲;在接收到一批數(shù)據(jù)以后,將數(shù)據(jù)放到流式任務中;首先對數(shù)據(jù)進行分類操作,按照數(shù)據(jù)的各種分類進行分組,將同樣的分類的數(shù)據(jù)進行簡單的計算并進行保存,然后,根據(jù)保存的結(jié)果進行聚合獲得想要的新聞分析的結(jié)果;當一條數(shù)據(jù)被接收到之后,數(shù)據(jù)將被進行分類等等。本發(fā)明在計算結(jié)束后才能看到分析結(jié)果,效率、速度、靈活性都較差,但是新版的分析會使分析結(jié)果的速度逐步出現(xiàn),效率更高,靈活性更高。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于流式計算的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)、計算機程序。
背景技術(shù)
大數(shù)據(jù)計算主要有批量計算和流式計算兩種形態(tài),在傳統(tǒng)的數(shù)據(jù)處理流程中,總是先收集數(shù)據(jù),然后將數(shù)據(jù)放到DB中。當人們需要的時候通過DB對數(shù)據(jù)做query,得到答案或進行相關(guān)的處理。這樣看起來雖然非常合理,但是結(jié)果卻非常的緊湊和,尤其是在一些實時搜索應用環(huán)境中的某些具體問題,類似于MapReduce方式的離線處理并不能很好地解決問題。這就引出了一種新的數(shù)據(jù)計算結(jié)構(gòu)---流計算方式。它可以很好地對大規(guī)模流動數(shù)據(jù)在不斷變化的運動過程中實時地進行分析,捕捉到可能有用的信息,并把結(jié)果發(fā)送到下一計算節(jié)點。
(1)現(xiàn)有技術(shù)最主要的是,常規(guī)的統(tǒng)計計算只能按照一個維度進行計算,并且在計算結(jié)束后才能看到分析結(jié)果,效率、速度、靈活性都較差。而通過流式計算后的數(shù)據(jù)可以在計算中就看到部分分析結(jié)果,而且可以將分析結(jié)果再次聚合生成不同方向的分析數(shù)據(jù)。
本發(fā)明的數(shù)據(jù)統(tǒng)計分析是通過指定的條件進行數(shù)據(jù)的篩選,將數(shù)據(jù)通過不同規(guī)則,不同的時間緯度進行聚合、計算、統(tǒng)計,將統(tǒng)計結(jié)果進行分類存儲,目前常規(guī)的統(tǒng)計計算只能按照一個維度進行計算,并且在計算結(jié)束后才能看到分析結(jié)果,效率、速度、靈活性都較差,但是本發(fā)明的分析會使分析結(jié)果的速度逐步出現(xiàn),效率更高,靈活性更高。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于流式計算的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)、計算機程序。本發(fā)明通過流式計算后的數(shù)據(jù)可以在計算中就看到部分分析結(jié)果,而且可以將分析結(jié)果再次聚合生成不同方向的分析數(shù)據(jù)。當每條數(shù)據(jù)進入到系統(tǒng)后,都可以進入統(tǒng)計任務流中,使得結(jié)果可能更加快速,更加高效的展現(xiàn)出來。
本發(fā)明是這樣實現(xiàn)的,一種基于流式計算的數(shù)據(jù)統(tǒng)計分析方法,所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法為:
通過爬蟲進行數(shù)據(jù)的獲取;
通過數(shù)據(jù)的屬性、特性、分類屬性、不同的時間緯度進行聚合、計算、統(tǒng)計;
將統(tǒng)計結(jié)果進行分類存儲。
進一步,所述基于流式計算的數(shù)據(jù)統(tǒng)計分析方法具體包括:
將接收的數(shù)據(jù)放到流式任務中;首先進行數(shù)據(jù)分類,將同樣的分類的數(shù)據(jù)進行計算并保存,然后,根據(jù)保存的結(jié)果進行聚合獲得分析結(jié)果;
數(shù)據(jù)分類包括把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,進行區(qū)別;
數(shù)據(jù)分類中,遵循約定的分類原則,按照數(shù)據(jù)的內(nèi)涵、性質(zhì)及管理的要求,將所有數(shù)據(jù)按一定的結(jié)構(gòu)體系分為不同的集合,使每個數(shù)據(jù)在相應的分類體系中都有一個對應位置。
進一步,所述不同的時間緯度包括:字符型定性維度和數(shù)值型定量維度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中譯語通科技股份有限公司,未經(jīng)中譯語通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810028931.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種區(qū)塊鏈的共識方法
- 下一篇:基于地理位置的POI檢索方法和裝置
- 網(wǎng)管數(shù)據(jù)統(tǒng)計分析指標的處理方法和裝置、數(shù)據(jù)管理系統(tǒng)
- 一種數(shù)據(jù)統(tǒng)計方法及裝置
- 數(shù)據(jù)統(tǒng)計分析方法和裝置
- 一種分布式光伏電源的統(tǒng)計分析方法
- 用于智能終端的數(shù)據(jù)統(tǒng)計分析方法及系統(tǒng)
- 一種不銹鋼表面檢測結(jié)果綜合分析系統(tǒng)
- 一種集抄數(shù)據(jù)分析管理系統(tǒng)
- 一種基于大數(shù)據(jù)的經(jīng)濟數(shù)據(jù)統(tǒng)計分析裝置
- 無線通訊設(shè)備的管理系統(tǒng)、方法、存儲介質(zhì)及終端設(shè)備
- 醫(yī)療數(shù)據(jù)處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 操縱計算機文件和/或程序的系統(tǒng)和方法
- 一種升級計算機固件程序的方法
- 可編程縫紉機系統(tǒng)及用于該縫紉機系統(tǒng)中的數(shù)據(jù)載體
- 一種基于網(wǎng)絡的計算機信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡的計算機信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡的計算機信息檢索系統(tǒng)與方法
- 用于在執(zhí)行程序模塊時檢測惡意計算機代碼的方法和系統(tǒng)
- 用于檢測執(zhí)行程序模塊中的惡意計算機代碼的方法和系統(tǒng)
- 用于保護計算機程序免受影響的方法和計算機系統(tǒng)
- 信息處理系統(tǒng)和信息處理方法





