[發明專利]數據切分方法、判重方法及電子設備在審
| 申請號: | 201611139984.7 | 申請日: | 2016-12-12 |
| 公開(公告)號: | CN108614827A | 公開(公告)日: | 2018-10-02 |
| 發明(設計)人: | 薛亮 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市惠誠律師事務所 11353 | 代理人: | 逯博 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 待處理數據 電子設備 時間效率 申請 | ||
本申請提供了數據切分方法、判重方法及電子設備。數據判重方法包括:獲取待處理數據的簽名;對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;根據所述至少兩個簽名前綴,對所述待處理數據進行判重。采用本申請技術方案可以提高數據判重的時間效率。
技術領域
本申請涉及互聯網技術領域,尤其涉及一種數據切分方法、判重方法及電子設備。
背景技術
在處理海量數據(例如文檔或網頁)時,為了節約存儲空間,通常都會對數據進行判重。目前業界的主流做法是基于SimHash算法進行數據判重。SimHash算法是數據去重最常用的哈希(Hash)方法,其原理是:選定SimHash值的位數;將SimHash值的各位初始化為0;提取待簽名數據中的特征;使用傳統Hash函數計算各個特征的Hash值;對各特征的Hash值的每一位,如果該位為1,則SimHash值相應位的值加1;否則減1;對得到的SimHash值的每一位,若該位大于1,則設為1,否則設為0,得到SimHash簽名。SimHash算法的速度很快。
基于SimHash算法的數據判重過程為:對歷史數據進行SimHash簽名并存儲SimHash簽名;對新數據,首先對其進行SimHash簽名,然后比較其SimHash簽名和歷史數據的SimHash簽名是否相似,以判斷新數據中是否已存在于歷史數據中。
上述方案在最差情況下,每次都需要遍歷全部歷史數據的SimHash簽名進行比較,雖然時間復雜度上是O(n),但由于歷史數據基數較大,例如對于爬蟲平臺而言,其數據量基本上都是上億級別的,所以時間效率仍舊較低。
發明內容
本申請提供一種數據切分方法、判重方法及電子設備,用以提高數據判重的時間效率。
為達到上述目的,本申請的實施例采用如下技術方案:
第一方面,提供了一種數據切分方法,包括:
獲取待處理數據的簽名;
對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;
對應存儲所述至少兩個簽名前綴中的每個簽名前綴和所述簽名。
第二方面,提供了一種數據判重方法,包括:
獲取待處理數據的簽名;
對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;
根據所述至少兩個簽名前綴,對所述待處理數據進行判重。
第三方面,提供了一種電子設備,包括:
存儲器,用于存儲程序;
處理器,用于執行所述程序,以用于:
獲取待處理數據的簽名;
對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;
對應存儲所述至少兩個簽名前綴中的每個簽名前綴和所述簽名。
第四方面,提供了一種電子設備,包括:
存儲器,用于存儲程序;
處理器,用于執行所述程序,以用于:
獲取待處理數據的簽名;
對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;
根據所述至少兩個簽名前綴,對所述待處理數據進行判重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611139984.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據查詢方法及裝置
- 下一篇:基于規則模板的語料分析方法及語料分析裝置





