日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于MapReduce的度量空間相似連接處理方法在審

專利信息
申請?zhí)枺?/td> 201611173516.1 申請日: 2016-12-16
公開(公告)號: CN106777133A 公開(公告)日: 2017-05-31
發(fā)明(設(shè)計(jì))人: 高云君;楊克宇;陳璐;陳剛;陳純 申請(專利權(quán))人: 浙江大學(xué)
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 杭州求是專利事務(wù)所有限公司33200 代理人: 邱啟旺
地址: 310058 浙江*** 國省代碼: 浙江;33
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 mapreduce 度量 空間 相似 連接 處理 方法
【說明書】:

技術(shù)領(lǐng)域

發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)庫領(lǐng)域中度量空間下的連接處理技術(shù),特別是涉及一種基于MapReduce的度量空間相似連接處理方法。

背景技術(shù)

度量空間相似連接是指:在給定的度量空間中兩個(gè)數(shù)據(jù)集之間的笛卡爾積中找到所有相似性高于(或者距離小于)給定閾值的數(shù)據(jù)對。度量空間相似連接處理被廣泛地應(yīng)用在社會(huì)的各個(gè)領(lǐng)域中,其中包括重復(fù)數(shù)據(jù)檢測和刪除。

隨著以社交網(wǎng)絡(luò)、電子商務(wù)為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計(jì)算、物聯(lián)網(wǎng)計(jì)算機(jī)技術(shù)的興起,數(shù)據(jù)正以前所未有的速度不斷地增長和累積,隨之而來是以MapReduce為代表的各類大數(shù)據(jù)分布式系統(tǒng)蓬勃發(fā)展,大數(shù)據(jù)的時(shí)代已經(jīng)到來。在這樣一個(gè)大數(shù)據(jù)時(shí)代,傳統(tǒng)集中式的相似連接算法已經(jīng)漸漸滿足不了當(dāng)前快速地對海量數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)檢測和刪除的要求。因此,設(shè)計(jì)一個(gè)具有高可擴(kuò)展性、高效率的分布式相似連接處理方法成為了學(xué)術(shù)界與工業(yè)界的迫切需求。

針對基于MapReduce的度量空間相似連接處理方法,目前國內(nèi)外學(xué)者已經(jīng)做出了一些工作。其中,最具代表性的算法是基于球形劃分技術(shù)的MAPSS方法和基于二分超平面劃分技術(shù)的ClusterJoin方法。然而,這些方法主要有兩個(gè)缺陷:(1)這些方法隨機(jī)地選擇劃分的中心點(diǎn),這可能導(dǎo)致數(shù)據(jù)劃分不均衡,需要對數(shù)據(jù)進(jìn)行進(jìn)一步的重劃分;(2)這些方法只關(guān)注數(shù)據(jù)劃分方案,而忽略了數(shù)據(jù)劃分完成后,對各劃分內(nèi)部數(shù)據(jù)之間進(jìn)行相似度計(jì)算時(shí),設(shè)計(jì)剪枝策略以提高效率的方式。我們的方法很好地彌補(bǔ)了上述兩個(gè)缺陷,提升了相似連接處理的效率,高效地對重復(fù)數(shù)據(jù)進(jìn)行檢測和刪除。

發(fā)明內(nèi)容

針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于MapReduce的度量空間相似連接處理方法,該方法基于MapReduce分布式計(jì)算框架,先在Map階段對給定的數(shù)據(jù)集進(jìn)行劃分,而后在Reduce階段進(jìn)行相似性計(jì)算以得到重復(fù)數(shù)據(jù)結(jié)果,進(jìn)而進(jìn)行刪除。

為了達(dá)到上述目的,本發(fā)明所采用技術(shù)方案如下:一種基于MapReduce的度量空間相似連接處理方法,具體包括如下步驟:一種基于MapReduce的度量空間相似連接處理方法,該方法的步驟如下:

(1)對應(yīng)用中給定的度量空間數(shù)據(jù)集進(jìn)行隨機(jī)采樣,得到樣本數(shù)據(jù);

(2)對得到的樣本數(shù)據(jù)進(jìn)行支樞點(diǎn)選擇;

(3)將應(yīng)用中給定的整個(gè)數(shù)據(jù)集(包括樣本數(shù)據(jù))從度量空間映射至向量空間;

(4)利用步驟(3)中得到的映射到向量空間的樣本數(shù)據(jù)構(gòu)建KD樹,得到相應(yīng)的空間劃分;

(5)在Map階段,根據(jù)步驟(4)中得到的空間劃分,對步驟(3)中得到的整個(gè)數(shù)據(jù)集進(jìn)行劃分;

(6)在Reduce階段對劃分后的數(shù)據(jù)進(jìn)行相似度計(jì)算,得到相似連接的處理結(jié)果。

進(jìn)一步的,所述步驟(2)具體為:

(2.1)在樣本數(shù)據(jù)中找出離群點(diǎn)作為支樞點(diǎn)的備選集合;

(2.2)根據(jù)支樞點(diǎn)的選擇目標(biāo),對備選集合中的點(diǎn)進(jìn)行增量式的貪心選擇。

進(jìn)一步的,所述步驟(3)具體為:對于每一個(gè)在度量空間中的數(shù)據(jù),計(jì)算與步驟(2)中得到的支樞點(diǎn)之間的距離,并以求得的距離作為向量空間中各維度的坐標(biāo)值,以得到度量空間數(shù)據(jù)在向量空間中的坐標(biāo)。

進(jìn)一步的,所述的步驟(4)具體為:對步驟(3)中得到的樣本數(shù)據(jù),構(gòu)建KD樹,得到的KD樹中包含數(shù)據(jù)點(diǎn)個(gè)數(shù)相等的葉子節(jié)點(diǎn),各葉子節(jié)點(diǎn)對應(yīng)的空間區(qū)域即為空間劃分的結(jié)果。

進(jìn)一步的,所述的步驟(5)在Map階段,將步驟(3)中得到的映射至向量空間后的整個(gè)數(shù)據(jù)集劃分至步驟(4)中得到的相應(yīng)空間劃分中去。

進(jìn)一步的,所述步驟(6)具體為:

(6.1)在Reduce階段,對于每個(gè)劃分,將各劃分內(nèi)部的數(shù)據(jù)在隨機(jī)選定的一個(gè)維度上,使用快速排序算法進(jìn)行排序整理;

(6.2)利用平面掃描法,對排序后的數(shù)據(jù)集進(jìn)行度量空間距離計(jì)算以驗(yàn)證結(jié)果,并結(jié)合區(qū)域過濾技術(shù)對距離計(jì)算進(jìn)行剪枝。

進(jìn)一步的,所述區(qū)域過濾技術(shù)是指:若兩個(gè)數(shù)據(jù)對象在向量空間任意維度上的差值大于給定的距離閾值,則它們不可能成為最終結(jié)果,從而可以不經(jīng)過度量空間距離計(jì)算就被剪掉。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611173516.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品国产1区2区3区| 精品一区二区在线视频| 91久久久久久亚洲精品禁果| xxxx18日本护士高清hd| 欧美777精品久久久久网| 日韩精品1区2区3区| 国产馆一区二区| 国产69精品久久久久777糖心| 国产麻豆91欧美一区二区| 欧美国产精品久久| 亚洲va国产| 国产偷窥片| 国产午夜亚洲精品羞羞网站| 午夜看片网| 激情久久综合| 欧美日韩国产一级| 欧美一区二区三区在线视频观看| 欧美日韩九区| 一区不卡av| 久久久久国产精品www| 91麻豆精品一区二区三区 | 在线电影一区二区| 国产三级精品在线观看| 野花国产精品入口| 欧美日本一二三区| 国产偷久久一区精品69| 精品国产伦一区二区三区| 国产欧美亚洲一区二区| 国产精品久久久久久久岛一牛影视| 99精品视频一区二区| 福利电影一区二区三区| 2023国产精品自产拍在线观看| 一级女性全黄久久生活片免费| 亚洲精品乱码久久久久久高潮| 美女张开腿黄网站免费| 99国产精品9| 精品国产乱码一区二区三区在线| 欧美一区二区三区免费播放视频了| 日本美女视频一区二区| 欧美一区二区三区四区五区六区| 亚洲精品日本久久一区二区三区| 国产日韩欧美色图| 欧美一区二区三区不卡视频| 99视频国产精品| 日韩精品免费一区二区中文字幕| 欧美激情视频一区二区三区| 99精品国产99久久久久久97| 欧美乱妇高清无乱码免费| 国产精品久久久久久亚洲调教| 亚洲精品乱码久久久久久麻豆不卡| 午夜wwww| 亚洲福利视频二区| 国产剧情在线观看一区二区| 91国偷自产中文字幕婷婷| 国产日韩欧美在线一区| 国产伦精品一区二区三区免费下载 | 欧美日韩一区二区三区四区五区| 久久久午夜爽爽一区二区三区三州| 国产日产欧美一区| 久久精品亚洲一区二区三区画质| 国产日产欧美一区| 国产在线欧美在线| 国产乱老一区视频| 老太脱裤子让老头玩xxxxx | 国产欧美一区二区精品久久| 日本精品99| 一区二区三区欧美精品| 色一情一乱一乱一区99av白浆| 狠狠色成色综合网| 亚洲精品日本久久一区二区三区 | 91精品福利观看| 狠狠色噜噜狼狼狼色综合久| 久久免费视频一区| 亚洲欧美色一区二区三区| 日韩精品免费播放| 国产视频在线一区二区| 亚洲一区欧美| 欧美一区二区三区三州| 久久99久久99精品免观看软件 | 4399午夜理伦免费播放大全| 好吊妞国产欧美日韩免费观看网站 | 国产男女乱淫真高清视频免费|