[發明專利]一種高效的并行不確定性數據聚類方法在審
| 申請號: | 201910334513.9 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110059142A | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 吳翠先;何少元;何登平 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/27;G06F16/2458;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不確定性數據 聚類 距離度量 并行 并行計算 構建 不確定性 負載均衡 高效運行 聚類算法 模型實現 統計信息 最小邊界 數據集 點數 推導 度量 分區 均衡 引入 分析 | ||
1.一種高效的并行不確定性數據聚類方法,其特征在于,包括數據的不確定性度量與表示、不確定性數據間的距離度量、構建串行的不確定性數據聚類方法、數據分區劃分、構建高效的并行不確定性數據聚類方法。
2.根據權利要求1所述的不確定性數據聚類方法,其特征在于,所述數據的不確定性度量與表示具體為:利用區間數結合不確定性數據對象的統計信息(均值與標準差)來有效合理的對不確定性數據進行描述。首先獲取不確定性數據對象的n為均值向量與標準誤差向量引入包含因子k后,依據區間數的中點半徑表示方式,將不確定數據對象表示為R表示實數。
3.根據權利要求1所述的不確定性數據聚類方法,其特征在于,所述的不確定性數據間的距離度量具體為:不確定性數據對象經過區間數表示后,該對象便看作為一個區間數;在距離度量時,區間數間距離存在最大值與最小值,即區間數間的距離仍然是一個區間數;數據對象M,N之間的距離可表示為:
D(M,N)min表示數據對象M,N之間,距離的最小值、D(M,N)max表示數據對象M,N之間,距離的最大值;為了可以有效合理的將距離度量與聚類算法結合起來,引入相關系數λ{λ∈R|0≤λ≤1},把不確定性數據之間距離的最小值與最大值結合起來;那么不確定性數據對象M,N之間的距離可表示為:
由此得到的不確定性數據對象間的距離滿足非負性和對稱性。
4.根據權利要求1所述的不確定性數據聚類方法,其特征在于,所述構建串行的不確定性數據聚類方法具體為:將數據的不確定性度量與表示、不確定性數據間的距離度量引入到聚類算法OPTICS中,構建出串行的不確定性數據的聚類方法。
5.根據權利要求1所述的不確定性數據聚類方法,其特征在于,所述的數據分區劃分方法,從數據差異度最大的前K維度尋找最佳分片,保證高效運行。
6.根據權利要求1所述的不確定性數據聚類方法,其特征在于,所述的構建高效的并行不確定性數據,從Map、Reduce、Merge result、Relabel過程實現并行高效計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910334513.9/1.html,轉載請聲明來源鉆瓜專利網。





