[發(fā)明專(zhuān)利]一種確定最佳聚類(lèi)數(shù)的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201310739837.3 | 申請(qǐng)日: | 2013-12-26 |
| 公開(kāi)(公告)號(hào): | CN103714154A | 公開(kāi)(公告)日: | 2014-04-09 |
| 發(fā)明(設(shè)計(jì))人: | 周紅芳;王嘯;趙雪涵;段文聰;郭杰;張國(guó)榮;王心怡;何馨依 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安理工大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 西安弘理專(zhuān)利事務(wù)所 61214 | 代理人: | 李娜 |
| 地址: | 710048*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 確定 最佳 聚類(lèi)數(shù) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,涉及一種確定最佳聚類(lèi)數(shù)的方法。
背景技術(shù)
最佳聚類(lèi)數(shù)的判定大多數(shù)都是采用一種基于迭代的trial-and-error過(guò)程來(lái)進(jìn)行的,在給定的數(shù)據(jù)集上,使用不同的參數(shù)(通常是聚類(lèi)數(shù)k)運(yùn)行特定的聚類(lèi)算法對(duì)數(shù)據(jù)集進(jìn)行不同的劃分,然后計(jì)算各種劃分的有效性指標(biāo)值,通過(guò)比較各個(gè)指標(biāo)值,選擇符合預(yù)定條件的指標(biāo)值所對(duì)應(yīng)的聚類(lèi)數(shù)被認(rèn)為是最佳的聚類(lèi)數(shù)。實(shí)際上,trial-and-error過(guò)程存在幾個(gè)不足之處,一是聚類(lèi)數(shù)k值的確定對(duì)于缺乏豐富聚類(lèi)分析經(jīng)驗(yàn)的用戶(hù)來(lái)說(shuō)是難以準(zhǔn)確確定的,這就要求我們進(jìn)一步提出尋找更合理的聚類(lèi)數(shù)k的方法;其二是目前已經(jīng)提出了許多檢驗(yàn)聚類(lèi)有效性的指標(biāo),主要代表有Vxie指標(biāo)、Vwsj指標(biāo)等。由于這些指標(biāo)都是基于某個(gè)特定聚類(lèi)算法提出的,使得該方法在實(shí)際應(yīng)用中受到了極大的限制。另外該方法對(duì)大型、維數(shù)比較復(fù)雜的數(shù)據(jù)集,計(jì)算效率較差。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種確定最佳聚類(lèi)數(shù)的方法,能避免現(xiàn)有技術(shù)對(duì)大型數(shù)據(jù)集的反復(fù)聚類(lèi)的問(wèn)題,且計(jì)算效率較高。
本發(fā)明的技術(shù)方案是,一種確定最佳聚類(lèi)數(shù)的方法,通過(guò)有效性指標(biāo)Q(C)來(lái)評(píng)估數(shù)據(jù)集的聚類(lèi)效果,聚類(lèi)有效性指標(biāo)Q(C)取最小值時(shí)所對(duì)應(yīng)的聚類(lèi)數(shù)為最佳聚類(lèi)數(shù)。
本發(fā)明的特點(diǎn)還在于:
有效性指標(biāo)的確定,首先計(jì)算類(lèi)內(nèi)緊湊度和類(lèi)間分離度,再根據(jù)兩者的一個(gè)線性組合來(lái)表示有效性指標(biāo);具體包括:
1、假設(shè)對(duì)于多維數(shù)據(jù)集DB,其中一個(gè)聚類(lèi)劃分為Ck={C1,C2,...,Ck},而此時(shí)聚類(lèi)Ck的類(lèi)內(nèi)緊湊度是通過(guò)計(jì)算同一類(lèi)中的任意兩個(gè)數(shù)據(jù)對(duì)象之間距離的平方和得到的,用Scat(Ck)來(lái)表示,
同時(shí),聚類(lèi)Ck的類(lèi)間分離度Sep(Ck)通過(guò)計(jì)算不同類(lèi)中的任意兩個(gè)數(shù)據(jù)對(duì)象之間距離的平方和而得到的,
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310739837.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于模糊聚類(lèi)的網(wǎng)絡(luò)文本數(shù)據(jù)檢測(cè)方法
- 基于空間最短距離平均的密度自適應(yīng)無(wú)監(jiān)督聚類(lèi)方法
- 對(duì)包含多個(gè)文檔的源數(shù)據(jù)進(jìn)行聚類(lèi)的裝置和方法
- 一種數(shù)據(jù)分類(lèi)方法和裝置
- 一種對(duì)負(fù)荷數(shù)據(jù)進(jìn)行處理的優(yōu)化方法
- 一種多源放電及干擾疊加情況下的局部放電信號(hào)聚類(lèi)方法
- 建筑氣候分區(qū)方法及設(shè)備
- 數(shù)據(jù)聚類(lèi)的簇?cái)?shù)確定方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種目標(biāo)聚類(lèi)數(shù)的獲取方法、裝置及計(jì)算機(jī)系統(tǒng)
- 一種基于特征相似度的自適應(yīng)聚類(lèi)方法及應(yīng)用
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





