[發明專利]基于質心中間帶的K-MEANS聚類方法及系統在審
| 申請號: | 202010730251.0 | 申請日: | 2020-07-27 |
| 公開(公告)號: | CN111881975A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 周書田;薛雁;于海洋 | 申請(專利權)人: | 青島網信信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 青島發思特專利商標代理有限公司 37212 | 代理人: | 鞏同海;江鵬飛 |
| 地址: | 266000 山東省青島市嶗山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 質心 中間 means 方法 系統 | ||
1.一種基于質心中間帶的K-MEANS聚類方法及系統,其特征在于,包括如下步驟:
S1:質心中間帶的提出:質心中間帶是指沿質心左右搖擺的地方設置一個中間帶,即此中間帶與各個質心間的距離差小于設定的閾值,該閾值設定為最小識別閾值Y;
S2:最小識別閾值Y的選取,包括如下情形:
情況一:憑借對于數據的理解之上而給出固定的經驗,即先驗經驗;
情況二:根據算法迭代次數在一定范圍內遞增或遞減;
情況三:預設偏向某幾個分類,即偏好聚類;
S3:最小距離的兩個分類的選取,包括如下小步:
S31:輸入是樣本集D={x1,x2,...xm},聚類的簇樹k,最大迭代次數N,輸出是簇劃分C={C1,C2,...Ck};
S32:從樣本集D中隨機選擇k個樣本作為初始的k個質心:{μ1,μ2,...,μk};
S33:將簇劃分C初始化為對于i=1,2...m,計算樣本xi和各個質心向量μj(j=1,2,...k)的距離:
S34:選取最小距離的兩個分類,如果xi與這兩個分類的距離差小于最小識別閾值Y,則隨機選取其中一個分類,將xi標記為對應的類別λi;
S35:更新Cλi=Cλi∪{xi},對于j=1,2,...,k,對Cj中所有的樣本點重新計算新的質心:
如果所有的k個質心向量都沒有發生變化,則輸出簇劃分C={C1,C2,...Ck};
S4:輸出方差的確定值,包括如下情況:
情況一:在質心中間帶點進行隨機歸類,隨機產生一個隨機數作為替代值,確定最小距離兩個樣本的方差;
情況二:當樣本與兩個質心距離差過小時,不選取精確計算的值來標記,而是模擬在此情境下人類的直覺行為。
2.根據權利要求1所述的基于質心中間帶的K-MEANS聚類方法及系統,其特征在于,所述步驟S32中,k值的選擇根據對數據的先驗經驗選擇一個合適的k值,或者通過交叉驗證選擇一個合適的k值。
3.根據權利要求1所述的基于質心中間帶的K-MEANS聚類方法及系統,其特征在于,所述k個初始化的質心的位置選擇對最后的聚類結果和運行時間都產生影響,因此需要選擇合適的k個質心不能太近。
4.一種基于質心中間帶的K-MEANS聚類系統,其特征在于,包括如下模塊:
主控制模塊,用于實現如權利要求1至3所述的基于質心中間帶的K-MEANS聚類方法及系統的主控制模塊;
存儲控制模塊,用于控制數據的傳輸和存儲;
以及通過K-MEANS算法計算初始化質心、最小識別閾值初始化模塊;
計算樣本點到各質心的距離、最小識別閾值運算模塊;
通過對最小距離的兩個分類比較、更新質心的質心更新模塊;
計算更新前后質心間距離、最小距離的兩個分類比較、質心中間帶輸出方差確定模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島網信信息科技有限公司,未經青島網信信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010730251.0/1.html,轉載請聲明來源鉆瓜專利網。





