[發明專利]一種高效的并行不確定性數據聚類方法在審
| 申請號: | 201910334513.9 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110059142A | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 吳翠先;何少元;何登平 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/27;G06F16/2458;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不確定性數據 聚類 距離度量 并行 并行計算 構建 不確定性 負載均衡 高效運行 聚類算法 模型實現 統計信息 最小邊界 數據集 點數 推導 度量 分區 均衡 引入 分析 | ||
本發明是一種高效的并行不確定性數據聚類方法。包括,利用區間數結合不確定性數據的統計信息來對不確定性數據進行描述。距離度量,對區間數間的距離進行進一步分析推導,得到更加適合不確定性數據間距離度量的距離度量方式。將數據的不確定性度量與表示,以及距離度量引入到聚類算法OPTICS中,來構建串行的不確定性數據聚類方法。使用MDD?PRBP方法對數據集進行最小邊界點數和均衡的分區劃分,保障后續并行計算的負載均衡與聚類方法最終的高效運行。結合Hadoop平臺,運用MapReduce模型實現并行計算,構建出一種高效的并行不確定性數據聚類方法。
技術領域
本發明屬于靜態不確定性數據集的數據挖掘領域,具體涉及到一 種高效的并行不確定性數據聚類方法。
背景技術
隨著無線通信技術與網絡信息技術的快速發展,數據的產生極其 迅速,數據量也極其巨大。然而,由于原始數據不準確、采用粗粒度 數據集合、出于隱私保護的特殊目的等原因,導致在電信、氣象等眾 多領域中普遍包含不確定性數據。不確定性數據的聚類分析方法作為 一種有實際意義而且有效的方法,可在眾多存在不確定性數據的領域 應用。
不確定性數據的聚類問題十分具有挑戰性。傳統的數據聚類方法, 由于其方法中沒有處理數據不確定性的必要步驟,又只能單機串行運 行,使得傳統的數據聚類方法具有局限性。其只能較好的聚類確定性 數據,且無法滿足聚類大數據集的需要,如果將其直接用于聚類具有 不確定性的數據則會使聚類結果極差。
發明內容
鑒于此,本發明提供一種高效聚類不確定性數據的聚類方法,以 解決現有對不確定性數據進行聚類困難的問題。為了可以高效地聚類 不確定性數據,首先,必須考慮數據的不確定性,并對數據的不確定 性進行度量與表示;其次,運用合理的距離度量方法對不確定性數據 進行距離度量;然后,將數據的不確定性度量與表示,以及不確定性 數據間距離度量方法引入到基于密度的聚類算法OPTICS(Ordering Points To Identify theClustering Structure,點排序識別聚類結 構)中;然后,使用MDD-PRBP方法進行數據分區劃分,數據分區劃分 方法對數據集進行最小邊界點數和均衡的分區劃分;最后,結合Hadoop平臺,運用MapReduce模型實現并行計算。進而,提出一種 高效的并行不確定性數據聚類方法,從而實現對不確定性數據的有效 聚類。
為實現以上發明目的,提出一種高效的并行不確定性數據聚類方 法,具體包括以下步驟:
第一步:數據的不確定性度量與表示。對采集到的不確定性數據 利用區間數結合數據對象的均值與標準差,并引入包含因子k來合理 的表示不確定性數據對象。
第二步:距離度量。采用新的區間數間的距離度量方式,進行推 導。將其用于不確定性數據對象間的距離度量。
第三步:構建串行的不確定性數據聚類方法。將數據的不確定性 度量與表示,以及距離度量引入到基于密度的聚類算法OPTICS中, 使傳統OPTICS算法具有聚類不確定性數據的能力。
第四步:數據分區劃分。使用MDD-PRBP方法進行數據分區劃分, 該方法對數據集進行最小邊界點數和均衡的分區劃分,保障后續并行 計算的負載均衡與聚類方法最終的高效運行。
第五步:構建高效的并行不確定性數據聚類方法。結合Hadoop 平臺,運用MapReduce模型實現并行計算。構建出一種高效的并行不 確定性數據聚類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910334513.9/2.html,轉載請聲明來源鉆瓜專利網。





