[發(fā)明專利]一種基于樣本相似度的三支聚類方法在審
| 申請?zhí)枺?/td> | 202211302581.5 | 申請日: | 2022-10-24 |
| 公開(公告)號: | CN115618254A | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計)人: | 李劉萬;王平心;徐天杰;凡嘉琛;吳婷鳳 | 申請(專利權(quán))人: | 江蘇科技大學(xué) |
| 主分類號: | G06F18/23213 | 分類號: | G06F18/23213 |
| 代理公司: | 安徽思沃達(dá)知識產(chǎn)權(quán)代理有限公司 34220 | 代理人: | 唐明 |
| 地址: | 212100 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 樣本 相似 三支聚類 方法 | ||
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于樣本相似度的三支聚類方法;本發(fā)明所提供的方法,通過隨機(jī)選擇樣本部分特征的方法隨機(jī)生成一組基聚類成員,以此構(gòu)造樣本相似度,然后在樣本相似度的基礎(chǔ)了定義了劃分有效性指標(biāo),用來自動計算最優(yōu)閾值,最后,使用投票法對基聚類成員集成得到初步的聚類結(jié)果,再利用最優(yōu)閾值對其劃分,得到最終的核心域集合和邊界域集合。所提供的方法具有優(yōu)異的有效性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于樣本相似度的三支聚類方法。
背景技術(shù)
聚類是一個把數(shù)據(jù)對象劃分為若干類簇的過程,使得類簇中的對象彼此相似,與其它類簇中的對象不相似。聚類是一個無監(jiān)督的學(xué)習(xí)過程,現(xiàn)實(shí)中存在大量的無標(biāo)簽數(shù)據(jù),需要無監(jiān)督算法去學(xué)習(xí)和發(fā)現(xiàn)這些無標(biāo)簽數(shù)據(jù)的潛在模式與規(guī)律,多年來,聚類已在目標(biāo)檢索、數(shù)據(jù)挖掘、生物醫(yī)學(xué)等研究領(lǐng)域得到廣泛應(yīng)用。
三支聚類是三支決策理論的重要應(yīng)用,可以有效解決傳統(tǒng)二支聚類算法中因信息不完整或者數(shù)據(jù)不足而導(dǎo)致分區(qū)不準(zhǔn)確的問題。與二支聚類算法相比,三支聚類引入了不確定樣本的邊緣區(qū)域的概念,聚類結(jié)果主要受聚類數(shù)量和閾值的影響,在現(xiàn)有的工作中,人們通常根據(jù)專家意見選擇合適的類簇數(shù)量,并在三支決策的迭代中為所有數(shù)據(jù)選擇相同的常數(shù)閾值,然而這種固定閾值和類簇數(shù)量的選擇并不能很好地表明類簇與數(shù)據(jù)集之間的差異,尤其是對于不同大小和密度的數(shù)據(jù)集。
綜上所述,研發(fā)一種基于樣本相似度的三支聚類方法,是數(shù)據(jù)處理技術(shù)領(lǐng)域中急需解決的關(guān)鍵問題。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)所存在的上述缺點(diǎn),本發(fā)明在于提供一種基于樣本相似度的三支聚類方法,所提供的方法具有優(yōu)異的有效性。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
本發(fā)明提供了一種基于樣本相似度的三支聚類方法,包括以下步驟:
(1)通過隨機(jī)選擇樣本部分特征的方式,隨機(jī)生成一組基聚類成員,以此構(gòu)造樣本相似度;
(2)在樣本相似度的基礎(chǔ)了定義劃分有效性指標(biāo),用劃分有效性指標(biāo)來自動計算最優(yōu)閾值;
(3)使用投票法對基聚類成員集成得到初步的聚類結(jié)果,再利用最優(yōu)閾值對其劃分,得到最終的核心域集合和邊界域集合。
本發(fā)明進(jìn)一步的設(shè)置為:在步驟(1)中,構(gòu)造樣本相似度的過程如下:
假設(shè)U={x1,x2,x3,...,xn}表示數(shù)據(jù)有n個樣本,使用k-means聚類方法,通過每次隨機(jī)選擇部分屬性來進(jìn)行聚類,得到一組聚類結(jié)果Π={C1,C2,C3,...,Cn};
以此聚類結(jié)果構(gòu)建關(guān)系矩陣,即樣本相似度:式中,L表示不同的聚類結(jié)果,xi和yi表示樣本中的兩個點(diǎn),Cl(xi)表示第l個聚類結(jié)果中的點(diǎn)xi所在的類簇編號,其中,
本發(fā)明進(jìn)一步的設(shè)置為:在步驟(2)中,劃分有效性指標(biāo)的定義過程如下:
假設(shè)U={x1,x2,x3,...,xn},對于一個樣本子集它的劃分有效性指標(biāo)為:式中,表示屬于目標(biāo)子集X及其邊界域內(nèi)的樣本數(shù)與X中的樣本數(shù)之比。
本發(fā)明進(jìn)一步的設(shè)置為:在步驟(2)中,用劃分有效性指標(biāo)來自動計算最優(yōu)閾值的過程如下:
計算樣本相似度,步長為Δ的最小值Smin和最大值Sman構(gòu)成候選閾值空間;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇科技大學(xué),未經(jīng)江蘇科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211302581.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





