[發(fā)明專利]一種基于樣本密度和自適應(yīng)調(diào)整聚類中心的聚類分析方法有效
| 申請?zhí)枺?/td> | 202010158639.8 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111382797B | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計)人: | 張維;馬志華 | 申請(專利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西北工業(yè)大學(xué)專利中心 61204 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 樣本 密度 自適應(yīng) 調(diào)整 中心 聚類分析 方法 | ||
本發(fā)明涉及一種基于樣本密度和自適應(yīng)調(diào)整聚類中心的聚類分析方法,首先基于樣本密度和樣本鄰域初始化聚類數(shù)目K和聚類中心,然后采用最近鄰類簇合并的方法自適應(yīng)調(diào)整聚類數(shù)目K,最終得到最佳聚類結(jié)果,從而大大提高了聚類分析結(jié)果的有效性。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)聚類分析領(lǐng)域,特別涉及基于樣本密度和自適應(yīng)調(diào)整聚類中心的聚類分析方法。
背景技術(shù)
目前,研究和應(yīng)用最為廣泛的是基于劃分的聚類方法,K-means算法是一種典型的基于劃分思想的聚類算法,又是一種基于距離的聚類算法,具有算法思想簡單、收斂速度快、局部搜索能力強等特點,已被國內(nèi)外眾多專家學(xué)者研究多年,并且已經(jīng)在很多工商業(yè)領(lǐng)域被廣泛應(yīng)用。但是K-means聚類算法存在需要事先人為確定聚類的類別數(shù)K值,聚類結(jié)果受初值影響大,在一定程度上限制了其在解決實際問題時發(fā)揮的作用。
在使用K-means算法處理數(shù)據(jù)集時,聚類數(shù)目往往預(yù)先是不知道的,需要根據(jù)先驗知識或者對數(shù)據(jù)集進行分析得到預(yù)估的聚類數(shù)目,如果數(shù)據(jù)集十分龐大或者數(shù)據(jù)結(jié)構(gòu)十分復(fù)雜時,分析數(shù)據(jù)需要花費很大代價且很難確定最佳聚類數(shù)目。此外,由于算法初始聚類中心的隨機選擇,聚類結(jié)果不穩(wěn)定,很容易陷入局部最優(yōu)解,導(dǎo)致聚類效果和數(shù)據(jù)實際的特征分布存在較大偏差。因此在聚類分析中,對于初始聚類數(shù)目和聚類中心的選擇是十分關(guān)鍵的,只有選擇合適的初始聚類數(shù)目K和聚類中心M={M1,M2,...,Mi,...,MK}可以得到較好的聚類結(jié)果。
發(fā)明內(nèi)容
要解決的技術(shù)問題
實際應(yīng)用中,在處理數(shù)據(jù)分類問題時,不少情況下無法預(yù)先確定樣本的標(biāo)簽,也就是說沒有訓(xùn)練樣本對應(yīng)的類別,因而只能從原先沒有樣本標(biāo)簽的樣本集開始學(xué)習(xí),利用無監(jiān)督學(xué)習(xí)得到的結(jié)果,可以提取數(shù)據(jù)集中隱藏的信息,并對未來數(shù)據(jù)進行分類和預(yù)測提供訓(xùn)練數(shù)據(jù)。為了改善K-means算法在解決實際問題中的效果,更好地實現(xiàn)對無標(biāo)簽樣本數(shù)據(jù)的分類和預(yù)測,本發(fā)明提供了一種基于樣本密度和自適應(yīng)調(diào)整聚類中心的聚類分析方法,在K-means聚類算法的基礎(chǔ)上進行改進和完善,首先基于樣本密度和樣本鄰域初始化聚類數(shù)目K和聚類中心,然后采用最近鄰類簇合并的方法自適應(yīng)調(diào)整聚類數(shù)目K,最終得到最佳聚類結(jié)果,從而大大提高了聚類分析結(jié)果的有效性。提高算法的普遍適用性和應(yīng)用價值。
技術(shù)方案
一種基于樣本密度和自適應(yīng)調(diào)整聚類中心的聚類分析方法,其特征在于步驟如下:
步驟1:選擇初始聚類中心
1-1:初始化聚類數(shù)目初始化中心點集n為樣本數(shù)量;
1-2:聚類處理的數(shù)據(jù)集X={x1,x2,...,xi,...,xn},每個樣本對象包含p維特征{xi1,xi2,...,xil,...,xip},xil分別表示第i個對象的第l個特征值,i≤n,l≤p;計算數(shù)據(jù)集中每個樣本對象的密度值ρ(xi),如公式(1)所示,并按照密度值的大小降序排列;
ρ(xi)=exp[-v(xi)] (1)
其中:為樣本間的歐氏距離,i=1,2,...,n.j=1,2,...,n;
1-3:從樣本集中選取處于最密集區(qū)域的樣本,即最大的密度值max{ρ(xi)}對應(yīng)的樣本對象作為第一個類簇的初始聚類中心M1,并將其加入到初始化中心點集M中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010158639.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 使用后向自適應(yīng)規(guī)則進行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機匣和自適應(yīng)風(fēng)扇的智能發(fā)動機
- 一種自適應(yīng)樹木自動涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動機燃氣自適應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





