[發(fā)明專利]基于密度峰值-核心融合的自適應(yīng)聚類方法有效
申請(qǐng)?zhí)枺?/td> | 201910071935.1 | 申請(qǐng)日: | 2019-01-25 |
公開(kāi)(公告)號(hào): | CN109840558B | 公開(kāi)(公告)日: | 2022-06-17 |
發(fā)明(設(shè)計(jì))人: | 邱雷;房芳;袁慎芳;任元強(qiáng) | 申請(qǐng)(專利權(quán))人: | 南京航空航天大學(xué) |
主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 曹蕓 |
地址: | 210017 江*** | 國(guó)省代碼: | 江蘇;32 |
權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 基于 密度 峰值 核心 融合 自適應(yīng) 方法 | ||
本發(fā)明提出了一種基于密度峰值?核心融合的自適應(yīng)聚類方法,屬于模式識(shí)別領(lǐng)域。該方法包括如下步驟:(1)首先進(jìn)行基于密度峰值的密度近鄰聚類:采用核密度?
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于密度峰值-核心融合的自適應(yīng)聚類方法,屬于模式識(shí)別領(lǐng)域。
背景技術(shù)
聚類方法是模式識(shí)別及機(jī)器學(xué)習(xí)領(lǐng)域一項(xiàng)重要的技術(shù),被廣泛應(yīng)用于人臉識(shí)別、搜索工程、圖像分區(qū)等領(lǐng)域。聚類是根據(jù)數(shù)據(jù)點(diǎn)之間的相似性將數(shù)據(jù)集劃分成類或集群的過(guò)程,屬于同一類中的數(shù)據(jù)點(diǎn)之間具有較大的相似性,而屬于不同類的數(shù)據(jù)點(diǎn)應(yīng)盡可能不相似。數(shù)據(jù)點(diǎn)間的相似性可用距離度量,最常見(jiàn)的距離有歐幾里得距離。由于數(shù)據(jù)來(lái)源、性質(zhì)及分布的多樣性,以及自動(dòng)化工業(yè)進(jìn)程的需求,很多領(lǐng)域都要求聚類方法能夠自動(dòng)確定數(shù)據(jù)集中類的數(shù)目并處理具有任意形狀和密度分布的數(shù)據(jù)集。
密度聚類方法能夠?qū)哂腥我庑螤畹臄?shù)據(jù)集進(jìn)行聚類,且無(wú)需設(shè)定類的數(shù)目。最常見(jiàn)的密度聚類方法為應(yīng)用噪聲的基于密度空間聚類方法(Density-based SpatialClustering of Applications withNoise,DBSCAN)。在DBSCAN中,需要定義截?cái)嗑嚯x及密度閾值,由密度閾值確定核心點(diǎn)后,按屬于不同類的核心點(diǎn)之間距離超出截?cái)嗑嚯x的原則完成聚類。該方法具有密度聚類方法的兩大優(yōu)點(diǎn),即能夠?qū)哂腥我庑螤罘植嫉臄?shù)據(jù)集進(jìn)行聚類且無(wú)需設(shè)定類的數(shù)目。但該方法不僅需要預(yù)先設(shè)定截?cái)嗑嚯x,還需要預(yù)先設(shè)定核心點(diǎn)的密度閾值。此外,DBSCAN聚類結(jié)果容易受密度估計(jì)結(jié)果及核心點(diǎn)密度閾值的影響。
2014年,Science期刊發(fā)表了一種基于密度峰值搜尋的聚類方法(Clustering byfast search and find of density peaks,CFSFDP)。這是一種不需要預(yù)先設(shè)定核心點(diǎn)密度閾值的密度聚類方法。該方法提出了類中心具有的兩個(gè)密度峰值特征,即類中心的密度值局部極大,且類中心與密度更大的數(shù)據(jù)點(diǎn)之間的最小距離也局部極大。CFSFDP根據(jù)這兩個(gè)特征在橫縱坐標(biāo)分別為密度和最小距離的決策圖上人為確定類中心,完成聚類。CFSFDP方法雖然對(duì)具有任意形狀分布的數(shù)據(jù)集進(jìn)行自適應(yīng)聚類,但該方法也存在一些缺點(diǎn)。首先,CFSFDP方法聚類效果容易受密度估計(jì)結(jié)果的影響。其次,CFSFDP方法中人為確定類中心的過(guò)程限制了其在自動(dòng)化任務(wù)中的應(yīng)用效果。最重要的一點(diǎn),一個(gè)類中可能存在多個(gè)密度峰值點(diǎn),CFSFDP方法會(huì)將該類中多個(gè)密度峰值點(diǎn)都當(dāng)作類中心,一個(gè)含有多個(gè)密度峰值點(diǎn)的類會(huì)被錯(cuò)誤分成多個(gè)類,故CFSFDP方法無(wú)法確保正確的聚類結(jié)果。
綜上所述,雖然現(xiàn)有的一些聚類方法能夠自適應(yīng)的處理具有任意形狀分布的數(shù)據(jù)集,但這些數(shù)據(jù)集的形狀及密度大多呈現(xiàn)為簡(jiǎn)單分布,在處理復(fù)雜分布數(shù)據(jù)時(shí)聚類方法的精度及效率等性能仍亟待提高。
發(fā)明內(nèi)容
針對(duì)具有任意形狀及密度分布的數(shù)據(jù)集自適應(yīng)聚類問(wèn)題,本發(fā)明提出了一種基于密度峰值-核心融合的自適應(yīng)聚類方法,方法簡(jiǎn)單、準(zhǔn)確、高效,能夠?qū)哂腥我庑螤罴懊芏确植嫉臄?shù)據(jù)集進(jìn)行自適應(yīng)聚類。
本發(fā)明為解決其技術(shù)問(wèn)題采用如下技術(shù)方案:
一種基于密度峰值-核心融合的自適應(yīng)聚類方法,包括如下兩個(gè)步驟:
(1)基于密度峰值的密度近鄰聚類:首先采用核密度-k近鄰的密度估計(jì)方法計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的密度,然后計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與密度比自身大的數(shù)據(jù)點(diǎn)之間的最小距離,再通過(guò)基于密度及最小距離的自適應(yīng)閾值確定密度峰值點(diǎn),最后將密度峰值點(diǎn)作為初始類的中心,進(jìn)行密度近鄰聚類得到初始的聚類結(jié)果;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910071935.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 峰值采樣保持電路,峰值采樣保持方法及應(yīng)用
- 發(fā)送機(jī)
- 長(zhǎng)期演進(jìn)系統(tǒng)中主同步信號(hào)的檢測(cè)方法和檢測(cè)裝置
- 一種用于開(kāi)關(guān)電源的峰值采樣保持電路及其方法
- 峰值采樣保持電路及其開(kāi)關(guān)電源
- 快速峰值采樣保持裝置
- 帶峰值電流補(bǔ)償?shù)暮懔骺刂齐娐芳伴_(kāi)關(guān)電源
- 應(yīng)用于霍爾齒輪傳感器芯片的峰值檢測(cè)系統(tǒng)及方法
- 電弧焊接設(shè)備的控制方法及控制裝置
- 周期信號(hào)的峰值搜索方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)