[發明專利]數據去重方法、裝置、設備及介質有效
| 申請號: | 201910745028.0 | 申請日: | 2019-08-13 |
| 公開(公告)號: | CN110457305B | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 常郅博;李陽 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 方法 裝置 設備 介質 | ||
1.一種數據去重方法,其特征在于,包括:
獲取服務器發送的樣本庫,以得到本地樣本庫;
獲取目標請求,并將所述目標請求添加至預設數據庫中的請求隊列;
獲取所述預設數據庫發送的目標子隊列;所述目標子隊列中的請求為當前所述請求隊列中的位于所述目標請求之前的所有請求;
判斷所述目標請求對應的目標樣本是否與所述目標子隊列所對應的樣本相似,若相似,則禁止將所述目標樣本寫入所述本地樣本庫,若均不相似,則判斷所述目標樣本是否與所述本地樣本庫中的樣本相似;
若所述目標樣本與所述本地樣本庫中的樣本相似,則禁止將所述目標樣本寫入所述本地樣本庫,若所述目標樣本與所述本地樣本庫中的樣本均不相似,則將所述目標樣本寫入所述本地樣本庫;
其中,如果所述目標樣本中存在多個樣本,則所述判斷所述目標請求對應的目標樣本是否與所述目標子隊列所對應的樣本相似,若相似,則禁止將所述目標樣本寫入所述本地樣本庫,若均不相似,則判斷所述目標樣本是否與所述本地樣本庫中的樣本相似,包括:判斷所述目標樣本的內部是否存在相似樣本,如果是,則在目標樣本內部進行去重處理,以剔除所述目標樣本內部相似的重復樣本,從而得到優化后的目標樣本;判斷優化后的目標樣本是否與所述目標子隊列所對應的樣本相似;如果優化后的目標樣本與所述目標子隊列所對應的樣本之間存在相似的情況,則需要將這些相似樣本從優化后的目標樣本中剔除掉,得到剩余樣本,判斷所述剩余樣本是否與所述本地樣本庫中的樣本相似;如果優化后的目標樣本與所述目標子隊列所對應的樣本均不相似,則判斷優化后的目標樣本是否與所述本地樣本庫中的樣本相似。
2.根據權利要求1所述的數據去重方法,其特征在于,所述將所述目標樣本寫入所述本地樣本庫之后,還包括:
創建包含所述目標樣本的更新請求;
將所述更新請求發送至所述服務器,以便利用所述更新請求中的所述目標樣本對所述服務器中的所述樣本庫進行更新。
3.根據權利要求1所述的數據去重方法,其特征在于,所述將所述目標樣本寫入所述本地樣本庫之后,還包括:
記錄本次寫入操作對應的寫入時間戳,并將所述目標樣本作為增量樣本;
綁定所述寫入時間戳和所述增量樣本,得到相應的增量數據;
將所述增量數據發送至增量數據庫進行保存。
4.根據權利要求3所述的數據去重方法,其特征在于,所述判斷所述目標請求對應的目標樣本是否與所述本地樣本庫中的樣本相似之前,還包括:
創建包含獲取時間戳的增量數據請求;所述獲取時間戳為獲取到所述本地樣本庫時對應的時間戳;
將所述增量數據請求發送至所述增量數據庫;
獲取所述增量數據庫在對所述增量數據請求進行響應后返回的目標增量數據;所述目標增量數據為寫入時間戳晚于所述獲取時間戳的增量數據;
將所述目標增量數據和所述本地樣本庫進行合并,得到更新后的所述本地樣本庫。
5.根據權利要求3所述的數據去重方法,其特征在于,還包括:
按照預設周期,定期獲取當前所述服務器中的最新樣本庫以及當前所述增量數據庫中的增量數據;
判斷所述最新樣本庫是否包含當前所述增量數據庫中的增量數據;
如果包含,則向所述增量數據庫發送相應的刪除指令,以刪除所述增量數據庫中的增量數據。
6.根據權利要求1所述的數據去重方法,其特征在于,所述獲取服務器發送的樣本庫,以得到本地樣本庫之后,還包括:
判斷當前是否滿足預設的一致性維護條件;
如果滿足,則獲取當前所述服務器中的最新樣本庫;
在所述本地樣本庫和所述最新樣本庫之間進行數據同步,以維護所述本地樣本庫和所述最新樣本庫之間的數據一致性。
7.根據權利要求1至6任一項所述的數據去重方法,其特征在于,所述將所述目標樣本寫入所述本地樣本庫之后,還包括:
創建針對所述目標請求的移除指令;
將所述移除指令發送至所述預設數據庫,以便所述預設數據庫根據所述移除指令移除當前所述請求隊列中的所述目標請求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910745028.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





