[發明專利]一種數據去重方法、裝置、設備及存儲介質在審
| 申請號: | 202010037797.8 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111258966A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 李猛 | 申請(專利權)人: | 軟通動力信息技術有限公司 |
| 主分類號: | G06F16/172 | 分類號: | G06F16/172;G06F16/174 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 300308 天津市濱海新區天津自貿試*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 方法 裝置 設備 存儲 介質 | ||
1.一種數據去重方法,其特征在于,包括:
獲取待處理文件中的待處理數據,并計算所述待處理數據的第一哈希值和第一MD5值;
根據所述第一哈希值,確定已存儲的檢索數據中進行數據比對的目標哈希分區,其中,所述檢索數據包括至少一個哈希分區,每一個哈希分區包括至少一個MD5值;
確定所述目標哈希分區的至少一個MD5值中是否存在所述第一MD5值;
如果存在,則確定所述待處理數據為重復數據,并基于所述待處理數據對文檔數據庫中與所述第一MD5值對應的存儲數據進行更新。
2.根據權利要求1所述的方法,其特征在于,還包括:
獲取文檔數據庫中已存儲的至少一個存儲數據,并計算所述存儲數據的第二哈希值和第二MD5值;
根據緩存數據庫中的哈希分區,將所述第二MD5值存儲至與所述第二MD5值對應的第二哈希值所屬的哈希分區中,生成檢索數據。
3.根據權利要求1所述的方法,其特征在于,所述檢索數據還包括所述各存儲數據對應的主關鍵字數據,相應的,在獲取待處理文件中的待處理數據之后,還包括:
確定所述待處理數據中是否存在預設主關鍵字數據;
如果存在,則基于所述預設主關鍵字數據對所述待處理數據進行重復性判斷。
4.根據權利要求3所述的方法,其特征在于,所述基于所述預設主關鍵字數據對所述待處理數據進行重復性判斷,包括:
將所述待處理數據的預設主關鍵字數據與所述檢索數據中的主關鍵字數據進行比對;
當所述預設主關鍵字數據與所述檢索數據中的任一主關鍵字數據相同時,確定所述待處理數據為重復數據,并基于所述待處理數據對文檔數據庫中與所述預設主關鍵字數據對應的存儲數據進行更新。
5.根據權利要求1或4所述的方法,其特征在于,所述方法還包括:
如果所述目標哈希分區的至少一個MD5值不存在所述第一MD5值,或者所述預設主關鍵字數據與所述檢索數據中的任一主關鍵字數據均不相同,則將所述待處理數據存儲至所述文檔數據庫中。
6.根據權利要求5所述的方法,其特征在于,在所述將所述待處理數據存儲至所述文檔數據庫之后,還包括:
將所述第一MD5值和/或所述預設主關鍵字數據保存在所述檢索數據中,以對所述檢索數據進行更新。
7.根據權利要求1所述的方法,其特征在于,所述計算所述待處理數據文件對應的第一哈希值和第一MD5值,包括:
獲取所述待處理數據中的預設字段數據,并基于所述預設字段數據計算第一哈希值和第一MD5值。
8.一種數據去重裝置,其特征在于,包括:
待處理數據獲取模塊,用于獲取待處理文件中的待處理數據,并計算所述待處理數據的第一哈希值和第一MD5值;
目標哈希分區確定模塊,用于根據所述第一哈希值,確定已存儲的檢索數據中進行數據比對的目標哈希分區,其中,所述檢索數據包括至少一個哈希分區,每一個哈希分區包括至少一個MD5值;
第一MD5值確定模塊,用于確定所述目標哈希分區的至少一個MD5值中是否存在所述第一MD5值;
重復數據確定模塊,用于如果存在,則確定所述待處理數據為重復數據,并基于所述待處理數據對文檔數據庫中與所述第一MD5值對應的存儲數據進行更新。
9.一種設備,其特征在于,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-7中任一所述的數據去重方法。
10.一種包含計算機可執行指令的存儲介質,其特征在于,所述計算機可執行指令在由計算機處理器執行時用于執行如權利要求1-7中任一所述的數據去重方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于軟通動力信息技術有限公司,未經軟通動力信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010037797.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





