[發明專利]一種數據的窗口統計方法、裝置及系統有效
| 申請號: | 201610389600.0 | 申請日: | 2016-06-03 |
| 公開(公告)號: | CN106909495B | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 王鑫文;李奡海 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 窗口 統計 方法 裝置 系統 | ||
本申請提供一種數據的窗口統計方法、裝置及系統。所述方法可以獲取當前時刻業務維度的單位時間級數據,以及所述當前時刻的上一個單位時間業務維度的歷史窗口統計結果;從存儲的歷史單位時間級數據中查詢出所述當前時刻的周期窗口負數據,根據所述周期窗口負數據和所述當前時刻業務維度的單位時間級數據計算得到當前時刻的業務維度增量數據;基于所述歷史窗口統計結果和所述當前時刻的業務維度增量數據確定所述當前時刻業務維度的窗口統計結果。利用本申請中各個實施例,可以對數據實時窗口統計時大幅降低系統的內存開銷,提高系統性能,降低網絡開銷,提高窗口統計系統的數據處理效率。
技術領域
本申請屬于計算機數據處理領域,尤其涉及一種數據的窗口統計方法、裝置及系統。
背景技術
在搜索系統中,常常需要統計過去一段時間內用戶搜索最高的TOPN關鍵詞,以捕捉用戶的關注焦點。例如實時統計過去24小時內用戶搜索次數最高的100個關鍵詞。
在搜索統計中常用的搜索關鍵詞統計方式包括采用加法模式和減法模式的窗口統計。所述的窗口統計指在對過去窗口時窗長度時間內段的數據值進行統計,生成當前統計時刻的統計結果。例如當前統計時刻2016-3-13 10:20“關鍵詞A”的5分鐘窗口統計可以指從2016-3-13 10:15到2016-3-13 10:20時間段內“關鍵詞A”的總搜索次數。現有技術中常用的窗口統計方法包括加法模式的窗口統計。圖1是現有技術中一種采用加法模式進行窗口統計的流程示意圖。具體的如圖1所示,在實施過程中,可以以分鐘為單位時間,系統每分鐘將用戶所搜索的關鍵詞及關鍵詞的搜索次數以搜索日志的方式存儲在數據庫中,如HBase(HBase是一個分布式的、面向列的開源數據庫)。窗口統計時,在當前這一分鐘統計時刻將過去24小時記錄的每分鐘的關鍵詞及統計次數從HBase中查詢出來。然后可以將查詢出的過去24小時的搜索關鍵詞及統計次數(24*60)累加,累加后的值加上當前這一分鐘關鍵詞及統計次數得到當前統計時刻關鍵詞的24小時窗口統計值。進一步的,可以將所述當前統計時刻關鍵詞的24小時窗口統計值按照關鍵詞的搜索次數進行TOP100排序,得到當前統計時刻的搜索關鍵詞TOP100。最后,可以實時更新當前這一分鐘的搜索關鍵TOP100的記錄信息。
而隨著互聯網信息技術的快速發展,用戶單位時間內的關鍵詞搜索量呈大幅上升趨勢。一些業務系統的搜索系統中,兩天內的搜索關鍵詞可以達到百萬數量級,每分鐘搜索關鍵詞可以達到2000個左右,甚至更高。相應的,數據庫如HBase每天需要存儲的數據達2000*24*60條。在上述加法模式的窗口統計中,系統需要將大約2000*24*60*0.4K(某系統中的每條數據大小)=1152MB數據加載到內存中進行計算。這樣,在分鐘級的窗口計算時需要將大約1G,甚至有些系統達到2G或3G的龐大數據加載到內存進行計算處理,大大增加了系統的處理風險和系統開銷。甚至,有些系統限于處理能力不能再規定時間內將需要處理的數據加載到應用內存中,無法完成實時計算。同時,若采用現有技術中的減法模式的窗口統計方式,需要查詢上一分鐘所有關鍵詞的累計值,以及24小時前所有關鍵詞的累計值。即使按照每分鐘1000條關鍵搜索的數據記錄來算,在每分鐘窗口統計時,系統的QPS(QueryPer Second,QPS,每秒查詢率)將達到1000*24*60/60=24000。并且需要將每分鐘的關鍵詞累計值更新至數據庫HBase,系統的TPS(Transaction Per Second,TPS,每秒事務處理量)也常常達到1萬以上,對數據庫的性能要求也會非常的高,相應的增加了系統成本。
現有技術中采用的加法模式或減法模式的窗口統計方法,對數據存儲有較高的TPS、QPS性能要求,在系統窗口統計運行計算時本身需要較高的內存開銷和網絡開銷,增加了系統負載。并且隨著業務的不斷增加,采用現有技術中的窗口統計方法通常對系統的服務器性能要求也越來越高,也相應的增加了數據處理成本。
發明內容
本申請目的在于提供一種數據的窗口統計方法、裝置及系統,可以有效降低系統的內存開銷,提高系統性能,降低網絡開銷,提高窗口統計系統的數據處理效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610389600.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:剝離式眼線卡
- 下一篇:半導體裝置及其制造方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





