[發(fā)明專利]一種數(shù)據(jù)處理方法及裝置有效
| 申請?zhí)枺?/td> | 201410020530.2 | 申請日: | 2014-01-16 |
| 公開(公告)號: | CN104794114B | 公開(公告)日: | 2018-04-03 |
| 發(fā)明(設(shè)計)人: | 黃曉鋒 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本申請涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法及裝置。
背景技術(shù)
流數(shù)據(jù)是一組順序、大量、快速、連續(xù)到達(dá)的數(shù)據(jù)序列,一般情況下,流數(shù)據(jù)可被視為一個隨時間延續(xù)而無限增長的動態(tài)數(shù)據(jù)集合。由于流數(shù)據(jù)具有數(shù)據(jù)量巨大的特性,因此,通常采用分布式服務(wù)器處理流數(shù)據(jù)。
目前,分布式服務(wù)器處理流數(shù)據(jù)的過程一般是:分布式服務(wù)器接收目標(biāo)設(shè)備發(fā)送的流數(shù)據(jù),并對接收到的流數(shù)據(jù)進(jìn)行處理,再將接收到的流數(shù)據(jù)和處理后得到的結(jié)果數(shù)據(jù)發(fā)送給數(shù)據(jù)庫存儲。
對于流數(shù)據(jù)的處理而言,主要的處理是去重處理和累加處理。例如,要對某電子商務(wù)網(wǎng)站各商品類目下每天的買家數(shù)量進(jìn)行統(tǒng)計時,則一個分布式服務(wù)器接收該電子商務(wù)網(wǎng)站實時發(fā)送的一個商品類目下的新增訂單數(shù)據(jù),也就是流數(shù)據(jù),并對訂單數(shù)據(jù)中攜帶相同買家標(biāo)識的數(shù)據(jù)進(jìn)行去重處理,將去重處理后的數(shù)據(jù)的數(shù)量累加到結(jié)果數(shù)據(jù)中,最后將去重處理后的數(shù)據(jù)和結(jié)果數(shù)據(jù)發(fā)送給數(shù)據(jù)庫存儲。
假設(shè)某個分布式服務(wù)器接收到的流數(shù)據(jù)是用戶A購買了某商品類目下的商品1、用戶B購買了該商品類目下的商品2、用戶A購買了該商品類目下的商品2,則該分布式服務(wù)器對接收到的這三條流數(shù)據(jù)進(jìn)行去重處理后得到的數(shù)據(jù)就是用戶A和用戶B,再將去重處理后的這兩條數(shù)據(jù)累加到結(jié)果數(shù)據(jù)中,就得到了該商品類目下的買家數(shù)量。
可見,由于分布式服務(wù)器在對流數(shù)據(jù)進(jìn)行去重處理時,需要對比當(dāng)前接收的流數(shù)據(jù)與之前接收的流數(shù)據(jù)中指定類型的信息(如上述用戶標(biāo)識)是否相同,因此,分布式服務(wù)器在處理流數(shù)據(jù)的整個過程中,都需要把流數(shù)據(jù)和結(jié)果數(shù)據(jù)存儲在自身的內(nèi)存中。
在上述過程中,各分布式服務(wù)器由應(yīng)用管理中心統(tǒng)一進(jìn)行管理控制,各分布式服務(wù)器會按照設(shè)定的時間間隔向應(yīng)用管理中心發(fā)送心跳檢測報文,如果應(yīng)用管理中心監(jiān)測到某個分布式服務(wù)器沒有在設(shè)定時間內(nèi)發(fā)來心跳檢測報文,則確定該分布式服務(wù)器出現(xiàn)故障,控制該分布式服務(wù)器進(jìn)行重啟。
然而,對于一個分布式服務(wù)器來說,當(dāng)該分布式服務(wù)器重啟后會清除自身內(nèi)存中的所有數(shù)據(jù),而由于分布式服務(wù)器處理后續(xù)的流數(shù)據(jù)是要基于之前已經(jīng)處理過的流數(shù)據(jù)和結(jié)果數(shù)據(jù)進(jìn)行處理的,因此,在清除自身內(nèi)存中的數(shù)據(jù)后,分布式服務(wù)器需要從數(shù)據(jù)庫中讀取該分布式服務(wù)器之前已經(jīng)處理過的流數(shù)據(jù)和結(jié)果數(shù)據(jù),以便基于讀取的流數(shù)據(jù)和結(jié)果數(shù)據(jù)對后續(xù)接收到的流數(shù)據(jù)進(jìn)行處理。但由于數(shù)據(jù)庫中存儲了多個分布式服務(wù)器發(fā)送的處理后的流數(shù)據(jù)和結(jié)果數(shù)據(jù),重啟后的該分布式服務(wù)器卻并不能獲知數(shù)據(jù)庫中存儲的哪些流數(shù)據(jù)和結(jié)果數(shù)據(jù)是該分布式服務(wù)器處理后續(xù)的流數(shù)據(jù)所要基于的流數(shù)據(jù)和結(jié)果數(shù)據(jù),也即,重啟后的該分布式服務(wù)器并不能獲知數(shù)據(jù)庫中存儲的哪些流數(shù)據(jù)和結(jié)果數(shù)據(jù)是該分布式服務(wù)器之前發(fā)送給數(shù)據(jù)庫的流數(shù)據(jù)和結(jié)果數(shù)據(jù),從而,分布式服務(wù)器重啟后只能從數(shù)據(jù)庫中讀取全量的流數(shù)據(jù)和結(jié)果數(shù)據(jù),而由于數(shù)據(jù)庫中存儲的不只是出現(xiàn)故障的這一個分布式服務(wù)器發(fā)來的流數(shù)據(jù),而是所有分布式服務(wù)器發(fā)來的流數(shù)據(jù),因此,出現(xiàn)故障的分布式服務(wù)器重啟后從數(shù)據(jù)庫中讀取全量的流數(shù)據(jù)的數(shù)據(jù)量是非常巨大的,這不僅會浪費網(wǎng)絡(luò)資源,而且也很可能會造成分布式服務(wù)器自身的內(nèi)存溢出而再次出現(xiàn)故障并重啟,從而陷入不斷重啟的死循環(huán),無法正常處理流數(shù)據(jù)。
例如,由服務(wù)器1、服務(wù)器2、服務(wù)器3這三個分布式服務(wù)器分別統(tǒng)計類目a、類目b、類目c這三個商品類目下的處理流數(shù)據(jù),這三個分布式服務(wù)器都將自身去重處理后的流數(shù)據(jù)以及累加處理后得到的結(jié)果數(shù)據(jù)發(fā)送給數(shù)據(jù)庫存儲。當(dāng)服務(wù)器1出現(xiàn)故障而重啟后,由于其并不能獲知數(shù)據(jù)庫中存儲的哪些流數(shù)據(jù)是服務(wù)器1之前發(fā)送給數(shù)據(jù)庫的,因此服務(wù)器1只能從數(shù)據(jù)庫中讀取全量的流數(shù)據(jù),即,服務(wù)器1從數(shù)據(jù)庫中讀取的流數(shù)據(jù)不僅僅是之前服務(wù)器1發(fā)送給數(shù)據(jù)庫存儲的流數(shù)據(jù),而是之前這三個服務(wù)器發(fā)送給數(shù)據(jù)庫存儲的全部流數(shù)據(jù),其數(shù)據(jù)量遠(yuǎn)大于服務(wù)器1發(fā)送給數(shù)據(jù)庫存儲的流數(shù)據(jù)的數(shù)據(jù)量,這樣不僅浪費了傳輸這些數(shù)據(jù)所消耗的網(wǎng)絡(luò)資源,服務(wù)器1也很有可能由于自身的內(nèi)存溢出而再次故障重啟。
發(fā)明內(nèi)容
本申請實施例提供一種數(shù)據(jù)處理方法及裝置,用以解決現(xiàn)有技術(shù)中當(dāng)服務(wù)器故障重啟后從數(shù)據(jù)庫中讀取流數(shù)據(jù)時浪費網(wǎng)絡(luò)資源,也很可能再次發(fā)生故障的問題。
本申請實施例提供的一種數(shù)據(jù)處理方法,包括:
分布式服務(wù)器接收流數(shù)據(jù);并
基于自身保存的對之前接收到的前續(xù)流數(shù)據(jù)進(jìn)行第一處理得到的第一前續(xù)處理數(shù)據(jù),對接收到的流數(shù)據(jù)進(jìn)行第一處理得到第一處理數(shù)據(jù);
在所述第一處理數(shù)據(jù)中添加所述分布式服務(wù)器的服務(wù)器標(biāo)識,將添加了所述服務(wù)器標(biāo)識的第一處理數(shù)據(jù)發(fā)送給數(shù)據(jù)庫存儲;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410020530.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





