[發(fā)明專利]基于代理圖改善的后期融合多核聚類機(jī)器學(xué)習(xí)方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110607669.7 | 申請日: | 2021-06-01 |
| 公開(公告)號: | CN113435603A | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計)人: | 朱信忠;徐慧英;劉新旺;李苗苗;梁偉軒;殷建平;趙建民 | 申請(專利權(quán))人: | 浙江師范大學(xué) |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 浙江千克知識產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 趙芳 |
| 地址: | 321004 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 代理 改善 后期 融合 多核 機(jī)器 學(xué)習(xí)方法 系統(tǒng) | ||
本發(fā)明公開了基于代理圖改善的后期融合多核聚類機(jī)器學(xué)習(xí)方法及系統(tǒng)。其中涉及的基于代理圖改善的后期融合多核聚類機(jī)器學(xué)習(xí)方法,包括步驟:S1.獲取聚類任務(wù)和目標(biāo)數(shù)據(jù)樣本;S2.初始化代理圖改善矩陣;S3.對獲取聚類任務(wù)和目標(biāo)數(shù)據(jù)樣本相對應(yīng)的各個視圖運(yùn)行k均值聚類和和圖改善,并聯(lián)合核k均值聚類和圖改善的方法構(gòu)建目標(biāo)函數(shù);S4.采用循環(huán)方式求解步驟S3中構(gòu)建的目標(biāo)函數(shù),得到融合基礎(chǔ)核信息的圖矩陣;S5.對得到的圖矩陣進(jìn)行譜聚類,得到最終的聚類結(jié)果。本發(fā)明使得經(jīng)過優(yōu)化后的基礎(chǔ)劃分不但擁有單個核的信息,還能通過代理圖獲得全局信息,更有利于視圖的融合,從而使得學(xué)習(xí)到的代理圖能夠更好地融合各個核矩陣的信息,達(dá)到聚類效果提升的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及基于代理圖改善的后期融合多核聚類機(jī)器學(xué)習(xí)方法及系統(tǒng)。
背景技術(shù)
聚類在機(jī)器學(xué)習(xí)和數(shù)據(jù)分析中有重要的地位,它的目標(biāo)是將無標(biāo)簽的數(shù)據(jù)劃分為若干個不相關(guān)的類。在大數(shù)據(jù)時代,數(shù)據(jù)的收集是多源的,這類數(shù)據(jù)被稱為多視圖數(shù)據(jù)。對多視圖數(shù)據(jù)進(jìn)行聚類的方法被稱為多視圖聚類算法。多核聚類算法是多視圖聚類中的重要分支,它旨在充分利用一系列預(yù)先定義的基核,用以提高聚類表現(xiàn)。
現(xiàn)有的多核聚類算法根據(jù)融合的時機(jī)不同,可以大致分為前期融合和后期融合等兩類。前期融合,是指在進(jìn)行核k均值算法之前,將若干個核矩陣進(jìn)行融合。其中,由矩陣誘導(dǎo)的正則化項的方法(X.Liu,Y.Dou,J.Yin,et al.“Multiple kernel k-meansclustering with matrix-induced regularization”,in AAAI 2016,pp.1888–1894)能夠根據(jù)核矩陣的相似度自適應(yīng)地調(diào)整核系數(shù),避免相似信息的冗余,從而提高了最優(yōu)核矩陣的質(zhì)量。保持核的局部結(jié)構(gòu)的方法(M.and A.A.Margolin,“Localized datafusion for kernel k-means clustering with application to cancer biology”,inNeurIPS 2014,pp.1305-1313)亦能提高算法的效果。
后期融合多核聚類則是先對基核矩陣分別進(jìn)行核k均值算法,得到基礎(chǔ)劃分,再將這些基礎(chǔ)劃分進(jìn)行融合。基于最大對齊的后期融合算法(S.Wang,X.Liu,E.Zhu,etal.Multi-view clustering via late fusion alignment maximization,in IJCAI2019,pp.3778–3784)通過置換矩陣使得基礎(chǔ)劃分達(dá)到對齊的效果,而后再將其進(jìn)行組合。劉等人提出的后期融合方法(X.Liu,M.Li,C.Tang,et al.Efficient and effectiveregularized incomplete multi-view clustering,in T-PAMI2020)則可以處理視圖不完整的數(shù)據(jù),取得了良好的聚類效果。
相比于前期融合,后期融合擁有非常低的計算和存儲復(fù)雜度,以及較理想的聚類表現(xiàn)。然而,現(xiàn)有的后期融合聚類算法尚存在以下不足:一是基礎(chǔ)核的聚類過程和基礎(chǔ)劃分的后期融合過程是分離的。在這種情況下,基礎(chǔ)劃分的質(zhì)量對最終聚類的表現(xiàn)影響非常大,若其中存在異常點(diǎn)和噪聲,將導(dǎo)致聚類效果不理想。二是現(xiàn)有的方法只是簡單地將一致劃分視作基礎(chǔ)劃分的線性轉(zhuǎn)換,使得其難以應(yīng)用于現(xiàn)實(shí)中的多核數(shù)據(jù)。
發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術(shù)的缺陷,提供了基于代理圖改善的后期融合多核聚類機(jī)器學(xué)習(xí)方法及系統(tǒng)。
為了實(shí)現(xiàn)以上目的,本發(fā)明采用以下技術(shù)方案:
基于代理圖改善的后期融合多核聚類機(jī)器學(xué)習(xí)方法,包括步驟:
S1.獲取聚類任務(wù)和目標(biāo)數(shù)據(jù)樣本;
S2.初始化代理圖改善矩陣;
S3.對獲取聚類任務(wù)和目標(biāo)數(shù)據(jù)樣本相對應(yīng)的各個視圖運(yùn)行k均值聚類和和圖改善,并聯(lián)合核k均值聚類和圖改善的方法構(gòu)建目標(biāo)函數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江師范大學(xué),未經(jīng)浙江師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110607669.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





