[發明專利]數據去重方法、裝置、設備及介質有效
| 申請號: | 201910745028.0 | 申請日: | 2019-08-13 |
| 公開(公告)號: | CN110457305B | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 常郅博;李陽 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 方法 裝置 設備 介質 | ||
本申請公開了一種數據去重方法、裝置、設備及介質,該方法包括獲取服務器發送的樣本庫以得到本地樣本庫;獲取目標請求并將其添加至預設數據庫中的請求隊列;獲取預設數據庫發送的目標子隊列;目標子隊列中的請求為當前請求隊列中的位于目標請求之前的所有請求;判斷與目標請求對應的目標樣本是否與目標子隊列所對應的樣本相似,若相似則禁止寫入本地樣本庫,若均不相似則判斷目標樣本是否與本地樣本庫中的樣本相似;若與本地樣本庫中的樣本相似則禁止寫入本地樣本庫,若均不相似則寫入本地樣本庫。通過上述方案,可以允許并行地獲取寫入請求并進行相應的去重處理,從而實現在避免樣本庫出現相似樣本數據的情況下有效地提升樣本入庫效率的效果。
技術領域
本申請涉及計算機技術領域,特別涉及一種數據去重方法、裝置、設備及介質。
背景技術
現有的推薦系統中,通常會保存有由內容中心提供的樣本庫。推薦系統基于上述樣本庫中保存的樣本數據,向用戶進行內容推薦。
為了避免推薦系統向用戶推薦重復的內容,需要保證上述樣本庫中不存在相似的樣本數據?,F有技術中,為了實現該效果,常用的方案是在獲取到一定數量的待入庫樣本之后,便在上述待入庫樣本與當前樣本庫中的樣本之間進行去重處理,并且在這個去重過程中,不允許接收新的待入庫樣本,直到上述去重過程結束為止才允許接收新的待入庫樣本。這是因為,一旦在上述去重過程中接收到新的待入庫樣本,那么由于此時前一批待入庫樣本正在與樣本庫進行比對,所以會導致錯過了新接收到的待入庫樣本與前一批待入庫樣本之間的去重處理,這樣一來,如果新接收到的待入庫樣本與前一批待入庫樣本之間存在相似的樣本數據,很有可能會因此導致后續樣本庫出現相似的樣本數據,從而引起內容重復推薦的情形。然而,現有技術中,需要在待入庫樣本與樣本庫之間的去重過程結束之后才能允許接收新的待入庫樣本,這在很大程度上制約了樣本入庫效率的提高。
發明內容
有鑒于此,本申請的目的在于提供一種數據去重方法、裝置、設備及介質,能夠在避免樣本庫出現相似樣本數據的情況下,有效地提升樣本入庫效率。其具體方案如下:
為實現上述目的,一方面,本申請提供了一種數據去重方法,包括:
獲取服務器發送的樣本庫,以得到本地樣本庫;
獲取目標請求,并將所述目標請求添加至預設數據庫中的請求隊列;
獲取所述預設數據庫發送的目標子隊列;所述目標子隊列中的請求為當前所述請求隊列中的位于所述目標請求之前的所有請求;
判斷所述目標請求對應的目標樣本是否與所述目標子隊列所對應的樣本相似,若相似,則禁止將所述目標樣本寫入所述本地樣本庫,若均不相似,則判斷所述目標樣本是否與所述本地樣本庫中的樣本相似;
若所述目標樣本與所述本地樣本庫中的樣本相似,則禁止將所述目標樣本寫入所述本地樣本庫,若所述目標樣本與所述本地樣本庫中的樣本均不相似,則將所述目標樣本寫入所述本地樣本庫。
又一方面,本申請還提供了一種數據去重裝置,包括:
樣本庫獲取模塊,用于獲取服務器發送的樣本庫,以得到本地樣本庫;
請求獲取模塊,用于獲取目標請求;
請求入隊模塊,用于將所述目標請求添加至預設數據庫中的請求隊列;
隊列獲取模塊,用于獲取所述預設數據庫發送的目標子隊列;所述目標子隊列中的請求為當前所述請求隊列中的位于所述目標請求之前的所有請求;
隊列去重模塊,用于判斷所述目標請求對應的目標樣本是否與所述目標子隊列所對應的樣本相似;
樣本庫去重模塊,用于當所述目標樣本與所述目標子隊列所對應的樣本相似,則禁止將所述目標樣本寫入所述本地樣本庫,當所述目標樣本與所述目標子隊列所對應的樣本均不相似,則判斷所述目標樣本是否與所述本地樣本庫中的樣本相似;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910745028.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





