[發明專利]一種基于距離的無參數多維數據聚類方法在審
| 申請號: | 201710884448.8 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107562948A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 莫毓昌 | 申請(專利權)人: | 莫毓昌 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 321004 浙江省金*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 距離 參數 多維 數據 方法 | ||
【技術領域】
本發明涉及數據分析技術領域,具體涉及一種基于距離的無參數多維數據聚類方法。
【背景技術】
在對多維數據進行分析時,聚類是一種非常重要的分析技術。聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
聚類技術是把多維數據中特征相近的數據項歸入同一類中。通常數據項之間的特征差別可以采用多維數據項x和y之間的距離Dx,y進行刻畫:
其中L是多維數據的維數,yi和xi是多維數據項x和y的第i維度的值。
傳統的基于距離的多維數據聚類方法需要設定一個閾值參數H,并約定同一類中的數據項之間的距離值不超過H。對于帶參數的多維數據聚類方法,如何適當的選擇閾值H提升了多維數據聚類的難度。
【發明內容】
本發明的目的在于針對現有技術的缺陷和不足,提供一種基于距離的無參數多維數據聚類方法,它通過對距離值和的迭代分析,克服了傳統帶參數的多維數據聚類方法如何適當的選擇閾值H的問題,簡化了多維數據聚類方法的難度。
本發明所述的一種基于距離的無參數多維數據聚類方法,它采用如下的方法步驟:
步驟一:從多維數據集D中隨機選擇一項數據x;
步驟二:計算步驟一中的數據x和多維數據集D中其他各個數據項的距離值;
步驟三:把所有步驟二中計算出的距離值按照數據項分別進行求和;計算各個距離值和與其均值之差的平方和;
步驟四:若步驟三中的平方和比前一次計算得到的平方和小,則按照距離值和從小到大對多維數據集D進行排序,并記錄排序結果,然后選擇距離值和最大的數據項作為下一次聚類的x,重新執行步驟二-步驟四;
步驟五:若該平方和不比前一次計算得到的平方和小,則停止排序工作;
步驟六:對獲得的多個排序,按照距離值從大到小的順序進行數據項刪除操作,直至各個排序中的數據項沒有重復。在刪除過程中,若某一數據項只存在于一個排序,則跳過該數據項的刪除操作。
采用上述結構后,本發明有益效果為:本發明所述的一種基于距離的無參數多維數據聚類方法,通過對距離值和的迭代分析,克服了傳統帶參數的多維數據聚類方法如何適當的選擇閾值H的問題,簡化了多維數據聚類方法的難度。
【具體實施方式】
下面將以具體實施例來詳細說明本發明,其中的示意性實施例以及說明僅用來解釋本發明,但并不作為對本發明的限定。
本具體實施方式所述的一種基于距離的無參數多維數據聚類方法,它采用如下的方法步驟:
步驟一:從多維數據集D中隨機選擇一項數據x;
步驟二:計算步驟一中的數據x和多維數據集D中其他各個數據項的距離值;
步驟三:把所有步驟二中計算出的距離值按照數據項分別進行求和;計算各個距離值和與其均值之差的平方和;
步驟四:若步驟三中的平方和比前一次計算得到的平方和小,則按照距離值和從小到大對多維數據集D進行排序,并記錄排序結果,然后選擇距離值和最大的數據項作為下一次聚類的x,重新執行步驟二-步驟四;
步驟五:若該平方和不比前一次計算得到的平方和小,則停止排序工作;
步驟六:對獲得的多個排序,按照距離值從大到小的順序進行數據項刪除操作,直至各個排序中的數據項沒有重復。在刪除過程中,若某一數據項只存在于一個排序,則跳過該數據項的刪除操作。
本發明以具體實施例來進行具體說明:
步驟一:從多維數據集D(表一)中隨機選擇第3項數據x=(2,2,2,4),計算x和D中其他數據項的距離;
表一:
然后按照數據項分別對已計算出的距離值進行求和。
因為是第一次計算距離值,所以距離值之和就是其本身;計算各個距離值和與其均值之差的平方和:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于莫毓昌,未經莫毓昌許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710884448.8/2.html,轉載請聲明來源鉆瓜專利網。





