[發明專利]基于改進全空間采樣重力場和分水嶺的聚類方法在審
| 申請號: | 202110789632.0 | 申請日: | 2021-07-13 |
| 公開(公告)號: | CN113723445A | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 孫暢;岳士弘 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/34 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 空間 采樣 重力場 分水嶺 方法 | ||
本發明涉及一種基于改進全空間采樣重力場和改進分水嶺的聚類方法,包括如下步驟:(1)數據集X含有n個數據點,有m個維度特征,構建數據空間S;(2)構建觀察空間SO,通過觀察空間對數據空間的響應,完成對數據集X的聚類。觀察空間SO被定義為在m+1維度上與數據空間S相距do的空間范圍,維度都與數據空間S完全相同;(3)對整個觀察空間SO進行采樣,采樣滿足奈奎斯特采樣定理;(4)對觀察空間內的每個采樣后的點計算數據空間對其影響下產生的重力場;(5)將觀察空間的GGF視為灰度圖像,進行形態學操作;(6)對經過前面的形態學操作后的數據空間進行分水嶺分割。
技術領域
本發明屬于技術領域,具體涉及一種基于改進的全空間采樣重力場和改進的分水嶺的聚類算法,是一種面向較低維度的大數據知識挖掘的無監督機器學習算法。
背景技術
聚類算法有著很長的歷史,其中最著名的K均值聚類誕生于1967年,這些年,算法不斷發展進步,不勝枚舉的算法被提出,其中較為有名的包括DBSCAN,密度峰值聚類(Density Peak Cluster,DPC),K近鄰聚類等,此外,還有眾多基于經典算法為具體應用對象進行改進的算法,但這些年,一直有一個問題亟待解決,即聚類算法一般需要設置兩個參數,特別是有的算法還需要設置類數,這樣對一些先驗信息不易獲取的數據集來說,需要進行大量的試錯,大大降低了算法的可用性。此外,現今常見的大數據的數據集對算法的執行速度也提出了考驗,如何高效的運行又能保證正確率也是數據挖掘領域需要解決的問題。為此,我們提出了基于改進的全空間采樣重力場和改進的分水嶺的聚類算法。
發明內容
本發明的目的在于提供一種面向低維大數據樣本的基于改進的全空間采樣重力場和改進的分水嶺的聚類方法。為了實現上述目的,本發明采用了如下技術方案:
一種基于改進全空間采樣重力場和改進分水嶺的聚類方法,包括如下步驟:
(1)數據集X含有n個數據點,有m個維度特征,構建數據空間S,定義其為由數據集X每個維度最小值,最大值約束的,由聚類數據集X構成的最小超立方體空間;
(2)構建觀察空間SO,通過觀察空間對數據空間的響應,完成對數據集X的聚類。觀察空間SO被定義為在m+1維度上與數據空間S相距do的空間范圍,維度都與數據空間S完全相同,設S在第m+1維度上的坐標定義為0,則SO被表示為:
So={S,do}
(3)對整個觀察空間SO進行采樣,采樣滿足奈奎斯特采樣定理,指定每個維度的采樣點數量ns,根據ns確定采樣間隔dinter,觀察空間SO中采樣后共有N個點,N由每個維度采樣點數量ns決定:
N=(ns)m
(4)對觀察空間內的每個采樣后的點計算數據空間對其影響下產生的重力場,在觀察空間第z個點處的重力場計算式:
(5)將觀察空間的GGF視為灰度圖像,形態學操作過程中的結構元b采用半徑為r的超球;,將觀察空間采樣得到的點表示成Y=(y1,y2,...ym),進行如下的操作:
①類腐蝕
將類腐蝕結果用J表示,即
②類開重建
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110789632.0/2.html,轉載請聲明來源鉆瓜專利網。





