[發明專利]構建倒排泰森多邊形的分布式索引方法在審
| 申請號: | 201710975997.6 | 申請日: | 2017-10-19 |
| 公開(公告)號: | CN107741983A | 公開(公告)日: | 2018-02-27 |
| 發明(設計)人: | 季長清;秦靜;汪祖民;金錫哲;劉暢;吳銳 | 申請(專利權)人: | 大連大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙)21235 | 代理人: | 畢進 |
| 地址: | 116622 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 倒排泰森 多邊形 分布式 索引 方法 | ||
1.一種構建倒排泰森多邊形的分布式索引方法,其特征步驟如下:
S1.d維空間中給定兩個數據集R和S,Hadoop進行分片,部分mappers同時并行運行,在MapReduce任務中,使用默認的reducer,在啟動map函數之前,使用預聚類算法得到代表點p,并加載到每個map的主存中;
S2.在每一個map處理進程中,依次利用TextInputForma來讀取輸入的分片,TextInputFormat從文件讀取數據到Mapper的實例中,分別計算數據集R中的m個對象r與各代表點p之間的距離、數據集S中的n個對象s與代表點p之間的距離,并將距離數據集R中的第i個對象r與數據集S中的第j個對象sj的最接近的代表點Pij選出并聚集在Voronoi單元格VCi中,形成m個VC的分區VC1~VCm,所述的i順序取遍1~m,并且,當i順序取1~m中的一個具體值時,在i的該值下,j順序取遍1~n的所有值,得到m個存儲最接近的代表點的Voronoi單元格;輸出<VCi,List(Pij)>對;
已知查詢點p,判別其最鄰近的VCi或最一些鄰近的VCi集,由mapper輸出所述最鄰近的VCi或最一些鄰近的VCi集對應的原始數據集R和/或S中的r、s對象,并輸出最鄰近的VCi或最一些鄰近的VCi集的id;
S3.將mapper輸出到Hadoop的文件系統。
2.如權利要求1所述的構建倒排泰森多邊形的分布式索引方法,其特征在于,在所述步驟S2中,所述的將距離數據集R中的第i個對象r與數據集S中的第j個對象sj的最接近的代表點Pij選出并聚集在Voronoi單元格VCi中,形成m個VC的分區VC1~VCm的過程如下:
數據集R中第一個對象r1與數據集S中的第一個對象s1的最接近的代表點為P11,數據集R中第一個對象r1與數據集S中的第二個對象s2的最接近的代表點為P12,……,數據集R中第一個對象r1與數據集S中的第n個對象sn的最接近的代表點為P1n,該n個最接近的代表點選出并聚集在Voronoi單元格V1中;
數據集R中第一個對象r1與數據集S中的第一個對象s1的最接近的代表點為P11,數據集R中第一個對象r1與數據集S中的第二個對象s2的最接近的代表點為P12,……,數據集R中第一個對象r1與數據集S中的第n個對象sn的最接近的代表點為P1n,該n個最接近的代表點選出并聚集在Voronoi單元格V1中;
……
數據集R中第m個對象rm與數據集S中的第一個對象s1的最接近的代表點為Pm1,數據集R中第m個對象rm與數據集S中的第二個對象s2的最接近的代表點為Pm2,……,數據集R中第m個對象rm與數據集S中的第n個對象sn的最接近的代表點為Pmn,該n個最接近的代表點選出并聚集在Voronoi單元格Vm中。
3.如權利要求1所述的構建倒排泰森多邊形的分布式索引方法,其特征在于,倒排Voronoi索引包含兩個部分:主索引,包括所有的聚類中心;第二索引,包括儲存在每個VC的對像隊列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連大學,未經大連大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710975997.6/1.html,轉載請聲明來源鉆瓜專利網。





