[發明專利]一種數據去重的方法和設備在審
| 申請號: | 201610179982.4 | 申請日: | 2016-03-25 |
| 公開(公告)號: | CN107229660A | 公開(公告)日: | 2017-10-03 |
| 發明(設計)人: | 李翔;張新銘 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司11444 | 代理人: | 王剛,龔敏 |
| 地址: | 開曼群島大開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 方法 設備 | ||
技術領域
本發明涉及網絡技術領域,尤其涉及一種數據去重的方法和設備。
背景技術
一個用戶在進行網絡活動時會產生大量的數據,而產生的大量數據有很多是重復的數據,例如:用戶為了保證自己發送的數據可以被服務器接收到,用戶會發送多條所述數據,此時用戶發送的多條所述數據就是重復數據,當重復數據較多時不僅會占據服務器大量的存儲空間,也會占據服務器中過多的計算資源,由于服務器會進行過多的重復計算,致使服務器計算效率低下。
在現有技術中針對上述問題提出了一種數據去重方案:通過分析用戶產生重復數據的規律,確定出去重周期,下游數據處理設備根據去重周期對接收到的數據進行去重。
在實現本發明的過程中,發明人發現現有技術至少存在如下問題:
在用戶發送數據時,同一用戶設備發送的多個數據可能發送到不同的下游數據處理設備中,而下游數據處理設備在對數據進行去重時只能對自身中的數據進行去重,現有技術雖然可以有效的對單個下游數據處理設備中的重復數據去重,但是當同一用戶設備將多個重復數據發送到不同的下游數據處理設備中時,下游數據處理設備集群不能對所述多個重復數據進行有效去重。
發明內容
有鑒于此,本發明實施例提供的一種數據去重的方法和設備,用以解決現有技術中下游數據處理設備集群不能對同一用戶設備發送給不同下游數據處理設備的多個重復數據進行有效去重。
本發明提供一種數據去重的方法,所述方法應用于包括多個下游數據處理設備的系統中,所述方法包括:
中間設備獲取所接收到的數據中攜帶的唯一標識;
所述中間設備根據預設的對應關系和所述數據中的所述唯一標識,確定 所述數據將要被發送到的下游數據處理設備;
所述中間設備將所述數據發送到所述下游數據處理設備,以使所述下游數據處理設備對相同數據進行數據去重。
相同來源的數據所攜帶的唯一標識至少部分相同。
所述中間設備獲取所述數據中攜帶的唯一標識,具體包括:
所述中間設備解析所述數據;
所述中間設備判斷解析后的所述數據內容是否為空;
如果為空,所述中間設備刪除所述數據;
如果不為空,所述中間設備獲取所述數據中攜帶的唯一標識。
一種中間設備,所述中間設備應用于包括多個下游數據處理設備的系統中,所述中間設備包括:
獲取模塊,用于獲取所接收到的數據中攜帶的唯一標識;
確定模塊,用于根據預設的對應關系和所述數據中的所述唯一標識,確定所述數據將要被發送到的下游數據處理設備;
發送模塊,用于將所述數據發送到所述下游數據處理設備,以使所述下游數據處理設備對相同數據進行數據去重。
相同來源的數據所攜帶的唯一標識至少部分相同。
所述獲取模塊,具體用于:
解析所述數據;
判斷解析后的所述數據內容是否為空;
如果為空,刪除所述數據;
如果不為空,獲取所述數據中攜帶的唯一標識。
一種數據去重的方法,所述方法應用于包括多個下游數據處理設備的系統中,所述系統中還包括:中間設備,所述方法包括:
下游數據處理設備接收所述中間設備發送的數據,所述數據是根據預設的對應關系和所述數據中的攜帶的唯一標識發送的;
所述下游數據處理設備判斷是否存在與所述數據相同的數據;
如果存在,所述下游數據處理設備對所述數據進行數據去重。
相同來源的數據所攜帶的唯一標識至少部分相同。
所述下游數據處理設備判斷是否存在與所述數據相同的數據,具體包括:
所述下游數據處理設備確定出與所述數據屬于同一去重周期內獲取到的數據;
所述下游數據處理設備在確定出的與所述數據屬于同一去重周期內獲取到的數據中判斷是否存在與所述數據的所述唯一標識具有部分相同的數據;
所述下游數據處理設備對所述數據進行數據去重,具體包括:
所述下游數據處理設備將與所述唯一標識具有部分相同的數據進行合并,以使所述唯一標識具有部分相同的數據只保留一個。
一種下游數據處理設備,應用于包括多個下游數據處理設備和中間設備的系統中,所述系統中還包括:中間設備,所述下游數據處理設備包括:
接收模塊,用于接收所述中間設備發送的數據,所述數據是根據預設的對應關系和所述數據中的攜帶的唯一標識發送的;
判斷模塊,用于判斷是否存在與所述數據相同的數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610179982.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息搜索方法及裝置
- 下一篇:一種支付方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





