日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]數據切分方法、判重方法及電子設備在審

專利信息
申請號: 201611139984.7 申請日: 2016-12-12
公開(公告)號: CN108614827A 公開(公告)日: 2018-10-02
發明(設計)人: 薛亮 申請(專利權)人: 阿里巴巴集團控股有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京市惠誠律師事務所 11353 代理人: 逯博
地址: 英屬開曼群島大開*** 國省代碼: 開曼群島;KY
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 待處理數據 電子設備 時間效率 申請
【說明書】:

本申請提供了數據切分方法、判重方法及電子設備。數據判重方法包括:獲取待處理數據的簽名;對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;根據所述至少兩個簽名前綴,對所述待處理數據進行判重。采用本申請技術方案可以提高數據判重的時間效率。

技術領域

本申請涉及互聯網技術領域,尤其涉及一種數據切分方法、判重方法及電子設備。

背景技術

在處理海量數據(例如文檔或網頁)時,為了節約存儲空間,通常都會對數據進行判重。目前業界的主流做法是基于SimHash算法進行數據判重。SimHash算法是數據去重最常用的哈希(Hash)方法,其原理是:選定SimHash值的位數;將SimHash值的各位初始化為0;提取待簽名數據中的特征;使用傳統Hash函數計算各個特征的Hash值;對各特征的Hash值的每一位,如果該位為1,則SimHash值相應位的值加1;否則減1;對得到的SimHash值的每一位,若該位大于1,則設為1,否則設為0,得到SimHash簽名。SimHash算法的速度很快。

基于SimHash算法的數據判重過程為:對歷史數據進行SimHash簽名并存儲SimHash簽名;對新數據,首先對其進行SimHash簽名,然后比較其SimHash簽名和歷史數據的SimHash簽名是否相似,以判斷新數據中是否已存在于歷史數據中。

上述方案在最差情況下,每次都需要遍歷全部歷史數據的SimHash簽名進行比較,雖然時間復雜度上是O(n),但由于歷史數據基數較大,例如對于爬蟲平臺而言,其數據量基本上都是上億級別的,所以時間效率仍舊較低。

發明內容

本申請提供一種數據切分方法、判重方法及電子設備,用以提高數據判重的時間效率。

為達到上述目的,本申請的實施例采用如下技術方案:

第一方面,提供了一種數據切分方法,包括:

獲取待處理數據的簽名;

對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;

對應存儲所述至少兩個簽名前綴中的每個簽名前綴和所述簽名。

第二方面,提供了一種數據判重方法,包括:

獲取待處理數據的簽名;

對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;

根據所述至少兩個簽名前綴,對所述待處理數據進行判重。

第三方面,提供了一種電子設備,包括:

存儲器,用于存儲程序;

處理器,用于執行所述程序,以用于:

獲取待處理數據的簽名;

對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;

對應存儲所述至少兩個簽名前綴中的每個簽名前綴和所述簽名。

第四方面,提供了一種電子設備,包括:

存儲器,用于存儲程序;

處理器,用于執行所述程序,以用于:

獲取待處理數據的簽名;

對所述簽名進行至少一級切分,以獲得至少兩個簽名前綴;

根據所述至少兩個簽名前綴,對所述待處理數據進行判重。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611139984.7/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 911久久香蕉国产线看观看| 香蕉视频一区二区三区| 波多野结衣女教师电影| 欧美午夜理伦三级在线观看偷窥| 亚洲精品卡一卡二| 国产69久久| 欧美日韩国产精品综合| 狠狠躁夜夜躁| 国产美女三级无套内谢| 91一区在线| 久久午夜无玛鲁丝片午夜精品| 亚洲欧美国产精品va在线观看| 欧美午夜精品一区二区三区| 欧美日韩激情一区二区| 久久99精| 国产精品视频二区不卡| 国产综合久久精品| 精品无码久久久久国产| 91精品久久天干天天天按摩| 香蕉视频在线观看一区二区| 久久中文一区| 欧美中文字幕一区二区三区| 大bbw大bbw巨大bbb| 国产精品视频久久| 欧美精品在线视频观看 | 99久久精品免费看国产交换| 国产精品久久久综合久尹人久久9| 91精品视频在线观看免费| 国产欧美久久一区二区三区| 日本一级中文字幕久久久久久| 国产精品香蕉在线的人| 亚洲一区二区三区加勒比| 久久99精品久久久大学生| 麻豆精品一区二区三区在线观看| 69精品久久| 欧美乱大交xxxxx| 久久密av| 一区二区三区欧美精品| 国产精品美女久久久免费| 99热久久这里只精品国产www| 欧美乱偷一区二区三区在线 | 国产精品视频久久久久久久| 国产日韩欧美精品一区| 国产二区三区视频| 国产女人和拘做受视频免费| 久久福利免费视频| 亚洲乱玛2021| 狠狠色噜噜狠狠狠狠777| 四虎国产精品久久| 日本亚洲国产精品| 中文字幕av一区二区三区四区| 老太脱裤子让老头玩xxxxx | 欧美高清性xxxxhdvideos| 欧美色综合天天久久综合精品| sb少妇高潮二区久久久久| 欧美午夜看片在线观看字幕| 国产日韩欧美网站| 日韩一级片在线免费观看| 97久久超碰国产精品| 女人被爽到高潮呻吟免费看| 狠狠色综合欧美激情| xoxoxo亚洲国产精品| 色就是色欧美亚洲| 精品国产鲁一鲁一区二区三区| 四虎国产精品永久在线国在线 | 欧美一区二区三区另类| 国产欧美精品一区二区三区小说 | 国产麻豆一区二区三区精品| 狠狠色噜噜狠狠狠狠米奇7777| 国产一区www| 欧美激情国产一区| 亚洲精品丝袜| xoxoxo亚洲国产精品| 亚洲国产一区二| 日韩精品在线一区二区三区| 91久久精品国产91久久性色tv| 国产精品99999999| 国产精品伦一区二区三区级视频频 | 国产69精品久久久久孕妇不能看| 日韩女女同一区二区三区| 国产九九影院| 艳妇荡乳欲伦2|