[發(fā)明專利]基于密度峰值的數(shù)據(jù)聚類方法、裝置、介質(zhì)在審
| 申請?zhí)枺?/td> | 202210505924.1 | 申請日: | 2022-05-10 |
| 公開(公告)號: | CN115205566A | 公開(公告)日: | 2022-10-18 |
| 發(fā)明(設(shè)計)人: | 安俊秀;馬振明;靳宇倡 | 申請(專利權(quán))人: | 成都信息工程大學(xué) |
| 主分類號: | G06V10/762 | 分類號: | G06V10/762;G06V10/764;G06V10/74;G06K9/62 |
| 代理公司: | 北京元本知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11308 | 代理人: | 曹廣生 |
| 地址: | 610225 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 密度 峰值 數(shù)據(jù) 方法 裝置 介質(zhì) | ||
本發(fā)明公開了一種基于密度峰值的數(shù)據(jù)聚類方法、裝置、介質(zhì),利用直接下級描述各個數(shù)據(jù)點的相對密度,其中數(shù)據(jù)點是數(shù)據(jù)集中的圖片或者詞語特征,設(shè)計結(jié)合相對密度和絕對密度的混合密度值識別聚類中心,并通過相似性可達定義有效下級,進行非中心點的主要分配,并結(jié)合不同簇的k層上級分布,確定剩余點的標(biāo)簽,以此可以有效將數(shù)據(jù)集中相同類別的數(shù)據(jù)點聚集在一個類別下,高效準(zhǔn)確地完成了對數(shù)據(jù)集的分類。
技術(shù)領(lǐng)域
本發(fā)明屬于聚類分析技術(shù)領(lǐng)域,具體的說,涉及一種基于密度峰值的數(shù)據(jù) 聚類方法、裝置、介質(zhì)。
背景技術(shù)
聚類分析是一種無監(jiān)督學(xué)習(xí)的機器學(xué)習(xí)方法,它按照數(shù)據(jù)間的相似性將數(shù) 據(jù)分配到不同的集合中,使得同一集合內(nèi)的樣本點相似性較高,不同集合間的 樣本點的相似度較低,這些集合稱為簇。現(xiàn)有的聚類方法根據(jù)對相似性的不同 理解可以劃分為不同的類別,典型的有基于距離的方法和基于密度的方法。 Rodriguez和Laio在2014年提出通過快速搜索和查找密度峰值的聚類方法 (Clustering by Fast Search and Find of DensityPeaks,DPC),是一種流行的基于密 度的聚類方法,DPC是基于兩個假設(shè)提出的,第一個假設(shè)為聚類中心是局部密 度峰值,第二個假設(shè)為非聚類中心點應(yīng)與其高密度最近鄰在同一個集群中,由于 DPC簡單高效,已廣泛應(yīng)用于圖像處理、信息安全、大數(shù)據(jù)等領(lǐng)域。例如,對 于一個圖像集,將圖像集中的相似圖片聚類到一個類別下。但DPC存在以下缺 點:首先,初始聚類中心的選擇是手動的,這在某些情況下是極其困難的,甚 至是不可能的。其次僅考慮絕對密度而忽略了相對密度,導(dǎo)致方法不能很好的 處理密度不均勻的集群。最后,DPC的剩余點分配策略將導(dǎo)致“連鎖反應(yīng)”,即 當(dāng)一個高密度點被分配到錯誤的簇中,它的密度較低的鄰居很可能別分配到同 一個錯誤的簇中。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服背景技術(shù)所提出的技術(shù)問題,提出了一種基于密度 峰值的數(shù)據(jù)聚類方法、裝置、介質(zhì),從假設(shè)與實現(xiàn)間的不一致出發(fā)和假設(shè)的不 適用性出發(fā)。利用直接下級描述各個數(shù)據(jù)點的相對密度,設(shè)計結(jié)合相對密度和 絕對密度的混合密度值識別聚類中心,并通過相似性可達定義有效下級,進行 非中心點的主要分配,并結(jié)合不同簇的k層上級分布,確定剩余點的標(biāo)簽,以 此可以有效將數(shù)據(jù)集中相同類別的數(shù)據(jù)點聚集在一個類別下,高效準(zhǔn)確地完成 了對數(shù)據(jù)集的分類。
本發(fā)明的具體技術(shù)方案如下:
根據(jù)本發(fā)明的第一技術(shù)方案,提供了一種結(jié)合混合密度和局部結(jié)構(gòu)的基于 密度峰值的數(shù)據(jù)聚類方法,所述方法包括:
獲取數(shù)據(jù)集,所述數(shù)據(jù)集是文本集或圖像集,當(dāng)所述數(shù)據(jù)集是文本集時, 提取所述文本集中的詞語特征,將詞語特征作為數(shù)據(jù)點,當(dāng)所述數(shù)據(jù)集是圖像 集時,將所述圖像集中的圖片作為數(shù)據(jù)點,計算每個數(shù)據(jù)點的絕對密度;通過 每個數(shù)據(jù)點的絕對密度排序得到數(shù)據(jù)點的高密度最近鄰,利用數(shù)據(jù)點的直接下 級數(shù)目作為數(shù)據(jù)點的相對密度值;根據(jù)相對密度結(jié)合絕對密度表達混合密度以 確定混合密度聚類中心;通過如下公式(9)將混合密度聚類中心利用有效下級 關(guān)系逐步分配:
其中,L(xi)表示數(shù)據(jù)點xi的標(biāo)簽,Ll(xj)表示數(shù)據(jù)點xj的直接下級集合, DR(xj)表示數(shù)據(jù)點xj的相似性可達點的集合。
根據(jù)本發(fā)明的第二技術(shù)方案,提供了一種結(jié)合混合密度和局部結(jié)構(gòu)的基于 密度峰值的數(shù)據(jù)聚類裝置。所述裝置包括處理器,所述處理器被配置為:獲取 數(shù)據(jù)集,所述數(shù)據(jù)集是文本集或圖像集,當(dāng)所述數(shù)據(jù)集是文本集時,提取所述 文本集中的詞語特征,將詞語特征作為數(shù)據(jù)點,當(dāng)所述數(shù)據(jù)集是圖像集時,將 所述圖像集中的圖片作為數(shù)據(jù)點,計算每個數(shù)據(jù)點的絕對密度;通過每個數(shù)據(jù) 點的絕對密度排序得到數(shù)據(jù)點的高密度最近鄰,利用數(shù)據(jù)點的直接下級數(shù)目作 為數(shù)據(jù)點的相對密度值;根據(jù)相對密度結(jié)合絕對密度表達混合密度以確定混合 密度聚類中心;通過如下公式(9)將混合密度聚類中心利用有效下級關(guān)系逐步 分配:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程大學(xué),未經(jīng)成都信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210505924.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





