[發(fā)明專利]一種最小方差優(yōu)化初始聚類中心的模糊C均值聚類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710503214.4 | 申請(qǐng)日: | 2017-06-27 |
| 公開(公告)號(hào): | CN107330458A | 公開(公告)日: | 2017-11-07 |
| 發(fā)明(設(shè)計(jì))人: | 李學(xué)剛;狄嵐;李斌;李通明 | 申請(qǐng)(專利權(quán))人: | 常州信息職業(yè)技術(shù)學(xué)院 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 常州佰業(yè)騰飛專利代理事務(wù)所(普通合伙)32231 | 代理人: | 滕詣迪 |
| 地址: | 213164 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 最小 方差 優(yōu)化 初始 中心 模糊 均值 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)集的聚類分析方法,特別是涉及一種最小方差優(yōu)化初始聚類中心的模糊C均值聚類方法,屬于數(shù)據(jù)挖掘與模式識(shí)別技術(shù)領(lǐng)域。
背景技術(shù)
傳統(tǒng)的FCM算法在選取聚類中心時(shí)都是隨機(jī)選取,從而容易導(dǎo)致聚類的結(jié)果不夠穩(wěn)定,甚至可能會(huì)使聚類中心收斂到局部極值,為解決上述問題,根據(jù)樣本分布的緊密度信息,可以根據(jù)最小方差優(yōu)化初始聚類中心,該初始化算法根據(jù)樣本的空間分布信息,計(jì)算樣本的方差得出樣本的緊密度信息,選擇方差最小的樣本點(diǎn)及其一定范圍內(nèi)的樣本點(diǎn)作為初始聚類中心,實(shí)現(xiàn)改進(jìn)的模糊聚類算法。
FCM利用迭代下降的算法,是一個(gè)局部的搜索過程,對(duì)初始的聚類中心比較敏感,最終得到的結(jié)果未必是全局的最優(yōu)劃分,如果能選擇好的聚類中心,按照最近鄰方法將樣本分配到各個(gè)初始聚類中心產(chǎn)生初始聚類,聚類的結(jié)果將達(dá)到全局最優(yōu),因此,基于每個(gè)類簇中心樣本的方差最小原理,提出基于樣本的最小方差優(yōu)化初始聚類中心的FCM聚類算法。
發(fā)明內(nèi)容
本發(fā)明的主要目的是為了提供一種最小方差優(yōu)化初始聚類中心的模糊C均值聚類方法,解決因?yàn)槌跏季垲愔行牡牟淮_定而造成的的結(jié)果得不到最優(yōu)解的問題。
本發(fā)明的目的可以通過采用如下技術(shù)方案達(dá)到:
一種最小方差優(yōu)化初始聚類中心的模糊C均值聚類方法,包括以下步驟:
步驟S1:對(duì)輸入數(shù)據(jù)集與樣本點(diǎn)的距離關(guān)系進(jìn)行聚類;
步驟S2:將聚類分析方法用于對(duì)目標(biāo)數(shù)據(jù)集聚類分析得到聚類標(biāo)簽;
步驟S3:聚類分析后得到的聚類標(biāo)簽與原始標(biāo)簽依據(jù)評(píng)價(jià)指標(biāo)進(jìn)行性能評(píng)價(jià)。
進(jìn)一步的,所述步驟S1中,輸入的數(shù)據(jù)集采用人工模擬數(shù)據(jù)集和UCI數(shù)據(jù)集進(jìn)行輸入,聚類類別數(shù)根據(jù)人工模擬數(shù)據(jù)集和UCI數(shù)據(jù)集確定。
進(jìn)一步的,所述步驟S2中,通過目標(biāo)數(shù)據(jù)集聚類分析,對(duì)目標(biāo)數(shù)據(jù)集和像素點(diǎn)設(shè)定聚類標(biāo)簽,聚類標(biāo)簽的設(shè)定步驟包括:
步驟S21:根據(jù)目標(biāo)數(shù)據(jù)集中樣本的物理位置來設(shè)定標(biāo)簽,在人工模擬數(shù)據(jù)集和UCI數(shù)據(jù)集中設(shè)置標(biāo)簽數(shù);
步驟S22:將FCM算法用于設(shè)定好標(biāo)簽的數(shù)據(jù)組成的數(shù)據(jù)集中,得到聚類分析后的隸屬度矩陣U和聚類中心V。
進(jìn)一步的,所述步驟S22具體包括如下步驟:
步驟S221:首先確定聚類類別數(shù)c;
步驟S222:設(shè)置最大迭代次數(shù)Maxt以及最大誤差閾值ε;
步驟S223:設(shè)定由FCM算法聚類分析得到的隸屬度矩陣U,以及聚類中心V,作為FCM算法的初始隸屬度和聚類中心,此時(shí)設(shè)初始迭代次數(shù)t=1;
步驟S224:通過迭代優(yōu)化公式更新隸屬度矩陣和聚類中心矩陣。
進(jìn)一步的,所述步驟S224中,所述迭代優(yōu)化公式為:
u為隸屬度矩陣,d為模糊度矩陣,v為聚類中心,m為模糊指數(shù),x為樣本方差;
直至當(dāng)t達(dá)到最大迭代次數(shù)Max_t或者當(dāng)||U(t+1)-U(t)||Frobenius<ε時(shí),方法終止,此時(shí)的U,V即為方法的最優(yōu)解。
進(jìn)一步的,得到所述聚類中心V包括如下步驟:
步驟S2231:計(jì)算出樣本集中的每一個(gè)樣本xi的方差,找出數(shù)據(jù)集W中方差最小的樣本將設(shè)為第一個(gè)類簇的初始聚類中心v1;算出數(shù)據(jù)集樣本的均方根距離的一半rm,令:
c=1,
W=W-W1;
步驟S2232:若c<K,則令c=c+1,找出數(shù)據(jù)集W中方差最小的樣本將其設(shè)為第c類簇的初始聚類中心vc,并令:
W=W-Wc,
否則,就找到了K個(gè)初始聚類中心V0=[v1,v2,…,vk]。
進(jìn)一步的,所述FCM算法包括如下步驟:
步驟S2233:設(shè)定模糊指數(shù)m(1≤m);由所述步驟S2231中得到初始化的K個(gè)初始聚類中心V0=[v1,v2,…,vk];設(shè)置收斂精度ε>0;最大迭代次數(shù)tmax;令迭代次數(shù)k=0;
步驟S2234:計(jì)算U(k+1);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于常州信息職業(yè)技術(shù)學(xué)院,未經(jīng)常州信息職業(yè)技術(shù)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710503214.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 導(dǎo)管堵塞檢測(cè)裝置及導(dǎo)管堵塞檢測(cè)方法
- 登記確定裝置及其控制方法、以及電子裝置
- 一種CT圖像重建的方法
- 從個(gè)體內(nèi)時(shí)間方差異方差性發(fā)展健康信息特征提取
- 一種基于EM算法的LDPC碼譯碼噪聲方差的估計(jì)方法
- 應(yīng)用于顯示裝置的電路及相關(guān)的信號(hào)處理方法
- 一種基于改進(jìn)顏色方差算法的圖像相似判定方法
- 一種GNSS模糊度搜索方法、設(shè)備及介質(zhì)
- 語音信號(hào)的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種斷裂帶結(jié)構(gòu)識(shí)別方法、裝置及系統(tǒng)





