[發(fā)明專利]基于改進(jìn)型K均值聚類算法的樣本分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011107384.9 | 申請(qǐng)日: | 2020-10-16 |
| 公開(公告)號(hào): | CN112232412A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計(jì))人: | 馬胤剛;蔣輝;張冠男;張曉凡 | 申請(qǐng)(專利權(quán))人: | 沈陽(yáng)天眼智云信息科技有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 沈陽(yáng)維特專利商標(biāo)事務(wù)所(普通合伙) 21229 | 代理人: | 李丹 |
| 地址: | 110000 遼寧省沈陽(yáng)市渾南區(qū)遠(yuǎn)航*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 改進(jìn)型 均值 算法 樣本 分類 方法 | ||
本發(fā)明公開了一種基于改進(jìn)型K均值聚類算法的樣本分類方法,包括:獲取所有待分類的樣本,形成樣本數(shù)據(jù)集X;根據(jù)距離初步選定K個(gè)質(zhì)心;依次將每個(gè)樣本與距其最近的質(zhì)心歸至一類,形成K個(gè)樣本簇;對(duì)每個(gè)樣本簇進(jìn)行均值計(jì)算,得到每個(gè)樣本簇的質(zhì)心,并以此更新已選定的K個(gè)質(zhì)心;重復(fù)上述步驟,直至質(zhì)心不再變化,并獲得K個(gè)樣本簇,完成樣本的分類。該基于改進(jìn)型K均值聚類算法的樣本分類方法,根據(jù)距離選定初始質(zhì)心,相比原始的隨機(jī)選擇質(zhì)心的方法,可以大大減少后續(xù)質(zhì)心更新的次數(shù),可有效提高分類的速度。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,特別提供了一種基于改進(jìn)型K均值聚類算法的樣本分類方法。
背景技術(shù)
樣本分類通常采用K均值聚類算法,過程如下,首先,隨機(jī)選取K個(gè)樣本作為質(zhì)心,然后,計(jì)算每個(gè)樣本與各個(gè)質(zhì)心的距離,并把每個(gè)樣本分配給距離它最近的質(zhì)心,最終形成K個(gè)樣本簇,之后,根據(jù)每個(gè)樣本簇中現(xiàn)有的對(duì)象重新確定質(zhì)心,直至滿足終止條件。
現(xiàn)有的K均值聚類算法在圖像處理、模式識(shí)別中應(yīng)用廣泛,但是,因?yàn)槌跏假|(zhì)心是隨機(jī)選取的,聚類速度慢。
因此,提出一種新型的樣本分類方法,以提高聚類速度,成為人們亟待解決的問題。
發(fā)明內(nèi)容
鑒于此,本發(fā)明的目的在于提供一種基于改進(jìn)型K均值聚類算法的樣本分類方法,以解決傳統(tǒng)的樣本分類方法的分類速度慢的問題。
本發(fā)明提供了一種基于改進(jìn)型K均值聚類算法的樣本分類方法,包括:
S1:獲取所有待分類的樣本,形成樣本數(shù)據(jù)集X;
S2:從樣本數(shù)據(jù)集X中初步選定K個(gè)質(zhì)心,其中,K為聚類數(shù)量,具體包括:
S21:對(duì)樣本數(shù)據(jù)集X中的所有樣本進(jìn)行均值計(jì)算,得到樣本中心;
S22:分別計(jì)算樣本數(shù)據(jù)集X中的每個(gè)樣本與樣本中心的距離,并將距離樣本中心的距離最大的樣本選定為第一個(gè)質(zhì)心;
分別計(jì)算樣本數(shù)據(jù)集X中除第一個(gè)質(zhì)心以外的每個(gè)樣本與選定的第一個(gè)質(zhì)心的距離,并將距離第一個(gè)質(zhì)心的距離最大的樣本選定為第二個(gè)質(zhì)心;
第n個(gè)質(zhì)心的計(jì)算方法如下,其中,2n=K:
分別計(jì)算樣本數(shù)據(jù)集X中除前n-1個(gè)質(zhì)心以外的每個(gè)樣本與選定的前n-1個(gè)質(zhì)心的距離,并將距離前n-1個(gè)質(zhì)心的距離和最大的樣本選定為第n個(gè)質(zhì)心;
S3:依次將每個(gè)樣本與距其最近的質(zhì)心歸至一類,形成K個(gè)樣本簇;
S4:對(duì)每個(gè)樣本簇進(jìn)行均值計(jì)算,得到每個(gè)樣本簇的質(zhì)心,并以此更新已選定的K個(gè)質(zhì)心,其中,每個(gè)樣本簇的質(zhì)心均為樣本數(shù)據(jù)集X中的樣本;
S5:重復(fù)S3和S4,直至質(zhì)心不再變化,并獲得K個(gè)樣本簇,完成樣本的分類。
優(yōu)選,S4:對(duì)每個(gè)樣本簇進(jìn)行均值計(jì)算,得到每個(gè)樣本簇的質(zhì)心,并以此更新已選定的K個(gè)質(zhì)心,其中,每個(gè)樣本簇的質(zhì)心均為樣本數(shù)據(jù)集X中的樣本,具體包括:
S41:對(duì)每個(gè)樣本簇進(jìn)行均值計(jì)算,得到每個(gè)樣本簇的中心;
S42:依次在每個(gè)樣本簇中,選定與該樣本簇的中心距離最近的樣本作為該樣本簇的質(zhì)心;
S43:以S42中得到的K個(gè)樣本簇的質(zhì)心更新已選定的K個(gè)質(zhì)心。
本發(fā)明提供的基于改進(jìn)型K均值聚類算法的樣本分類方法,根據(jù)距離選定初始質(zhì)心,相比原始的隨機(jī)選擇質(zhì)心的方法,可以大大減少后續(xù)質(zhì)心更新的次數(shù),可有效提高分類的速度。
具體實(shí)施方式
下面將結(jié)合具體的實(shí)施方案對(duì)本發(fā)明進(jìn)行進(jìn)一步的解釋,但并不局限本發(fā)明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于沈陽(yáng)天眼智云信息科技有限公司,未經(jīng)沈陽(yáng)天眼智云信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011107384.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種基于顏色特征的攝像頭識(shí)別和檢測(cè)方法
- 一種采樣濾波電流值的計(jì)算方法及其系統(tǒng)
- 圖像清晰度識(shí)別方法和自動(dòng)聚焦方法
- 一種圖像亮度調(diào)整方法、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 信號(hào)均值檢測(cè)方法、裝置和系統(tǒng)
- 一種機(jī)器人運(yùn)動(dòng)障礙的判斷方法
- 基坑監(jiān)測(cè)數(shù)據(jù)的處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 以太網(wǎng)幀間距均值調(diào)節(jié)方法、裝置、智能終端及存儲(chǔ)介質(zhì)
- 基于大數(shù)據(jù)和人工智能的匹配度計(jì)算方法
- 數(shù)字均值追憶儀





