[發(fā)明專利]基于聯(lián)邦學(xué)習(xí)和深度學(xué)習(xí)的稀疏數(shù)據(jù)聚類方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202310266368.1 | 申請(qǐng)日: | 2023-03-16 |
| 公開(公告)號(hào): | CN116361669A | 公開(公告)日: | 2023-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 李修明 | 申請(qǐng)(專利權(quán))人: | 翼?。ㄉ虾#┬畔⒖萍加邢薰?/a>;翼方健數(shù)(北京)信息科技有限公司 |
| 主分類號(hào): | G06F18/23 | 分類號(hào): | G06F18/23;G06F18/214;G06N3/08;G06N20/20 |
| 代理公司: | 北京華清迪源知識(shí)產(chǎn)權(quán)代理有限公司 11577 | 代理人: | 朱芳 |
| 地址: | 200050 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 聯(lián)邦 學(xué)習(xí) 深度 稀疏 數(shù)據(jù) 方法 裝置 | ||
本申請(qǐng)公開了一種基于聯(lián)邦學(xué)習(xí)和深度學(xué)習(xí)的稀疏數(shù)據(jù)聚類方法,包括多個(gè)參與方和橫向聯(lián)邦學(xué)習(xí)框架中的仲裁方,多個(gè)參與方和橫向聯(lián)邦學(xué)習(xí)框架中的仲裁方均各自持有一份無標(biāo)簽稀疏數(shù)據(jù),無標(biāo)簽稀疏數(shù)據(jù)的數(shù)據(jù)特征相同,樣本不同;方法應(yīng)用于參與方,包括:生成密鑰,并與其它參與方交換密鑰;根據(jù)所持有的無標(biāo)簽稀疏數(shù)據(jù)訓(xùn)練基于深度學(xué)習(xí)的聚類模型,得到本地模型;根據(jù)密鑰將本地模型的參數(shù)加密后發(fā)送給assist?trainer;assist?trainer將所有參與方發(fā)送的模型參數(shù)進(jìn)行聚合平均,得到最終的全局模型。本申請(qǐng)?jiān)诓还_明文數(shù)據(jù)的前提下,可以安全整合存儲(chǔ)于不同機(jī)構(gòu)和平臺(tái)的無標(biāo)簽稀疏數(shù)據(jù),極大地?cái)U(kuò)充樣本量,提升了模型精度。
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于聯(lián)邦學(xué)習(xí)和深度學(xué)習(xí)的稀疏數(shù)據(jù)聚類方法及裝置。
背景技術(shù)
在現(xiàn)代社會(huì)中,隨著信息的爆炸式增長,數(shù)據(jù)量也呈現(xiàn)出爆炸式增長,數(shù)據(jù)形式也越來越多樣化。在數(shù)據(jù)挖掘領(lǐng)域,常常要面對(duì)海量的復(fù)雜型數(shù)據(jù),其中,海量無標(biāo)簽且稀疏的數(shù)據(jù)正在越來越被人們所注意。
無標(biāo)簽稀疏數(shù)據(jù)可能來自于不同的平臺(tái)和機(jī)構(gòu),隨著數(shù)據(jù)隱私及安全保護(hù)的重要性日益提升,不同的平臺(tái)和機(jī)構(gòu)之間無法分享全量明文數(shù)據(jù),而整合分析不同來源的數(shù)據(jù)能為各個(gè)專業(yè)領(lǐng)域的研究提供理論基礎(chǔ)。因此,基于隱私保護(hù)技術(shù)實(shí)現(xiàn)無標(biāo)簽稀疏數(shù)據(jù)的整合,并基于深度學(xué)習(xí)方法對(duì)其進(jìn)行聚類分析有重要意義。
目前,已有的無標(biāo)簽稀疏數(shù)據(jù)分析方法的主要目標(biāo)是解決數(shù)據(jù)稀疏性高、技術(shù)局限導(dǎo)致的假0現(xiàn)象和不同來源數(shù)據(jù)之間的高度異質(zhì)性問題;具體的方法包括:譜聚類方法、深度學(xué)習(xí)方法等。
譜聚類方法是從圖論中演化出來的算法,主要思想是把數(shù)據(jù)看作空間中的點(diǎn),點(diǎn)之間可用邊連接起來,距離較遠(yuǎn)代表點(diǎn)之間邊權(quán)重低,反之則高;隨后通過對(duì)所有數(shù)據(jù)點(diǎn)組成的圖進(jìn)行切分,讓切分后的子圖間邊權(quán)重盡可能低,子圖內(nèi)的邊權(quán)重盡可能高,從而完成聚類。但是,譜聚類方法依賴全圖的拉普拉斯矩陣,此矩陣的計(jì)算和存儲(chǔ)過于復(fù)雜,成本很高;對(duì)于特定的樣本數(shù)量而言,拉普拉斯矩陣的計(jì)算和存儲(chǔ)具有平方或超平方的復(fù)雜度,矩陣的分解甚至需要立方階復(fù)雜度;另外,譜聚類方法并不完全適配無標(biāo)簽稀疏數(shù)據(jù)的特點(diǎn):過度離散和零膨脹,導(dǎo)致聚類結(jié)果準(zhǔn)確度不足。
面向無標(biāo)簽稀疏數(shù)據(jù)的深度學(xué)習(xí)方法多基于自動(dòng)編碼器,通過無監(jiān)督學(xué)習(xí)的方式進(jìn)行特征降維;其本質(zhì)上會(huì)重復(fù)運(yùn)行若干次自動(dòng)編碼器,將前一次的最終輸出作為下一次運(yùn)行的初始輸入,然后再利用隱藏層特征進(jìn)行聚類。但是,深度學(xué)習(xí)方法并未針對(duì)無標(biāo)簽稀疏數(shù)據(jù)分析中的聚類過程進(jìn)行設(shè)計(jì)和優(yōu)化,在高維度數(shù)據(jù)上的聚類性能劣于低維度數(shù)據(jù)。
綜上可知,目前的無標(biāo)簽稀疏數(shù)據(jù)分析方法并不能解決因數(shù)據(jù)分布于不同機(jī)構(gòu)和平臺(tái)而無法安全整合的問題。
發(fā)明內(nèi)容
為此,本申請(qǐng)?zhí)峁┮环N基于聯(lián)邦學(xué)習(xí)和深度學(xué)習(xí)的稀疏數(shù)據(jù)聚類方法及裝置,以解決現(xiàn)有技術(shù)存在的因無標(biāo)簽稀疏數(shù)據(jù)分布于不同機(jī)構(gòu)和平臺(tái)而無法安全整合的問題。
為了實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┤缦录夹g(shù)方案:
第一方面,一種基于聯(lián)邦學(xué)習(xí)和深度學(xué)習(xí)的稀疏數(shù)據(jù)聚類方法,包括多個(gè)參與方和橫向聯(lián)邦學(xué)習(xí)框架中的仲裁方,多個(gè)參與方和橫向聯(lián)邦學(xué)習(xí)框架中的仲裁方均各自持有一份無標(biāo)簽稀疏數(shù)據(jù),無標(biāo)簽稀疏數(shù)據(jù)的數(shù)據(jù)特征相同,樣本不同;
所述方法應(yīng)用于參與方,包括:
生成密鑰,并與其它參與方交換密鑰;
根據(jù)所持有的無標(biāo)簽稀疏數(shù)據(jù)訓(xùn)練基于深度學(xué)習(xí)的聚類模型,得到本地模型;
根據(jù)所述密鑰將所述本地模型的參數(shù)加密后發(fā)送給assist-trainer;所述assist-trainer將所有參與方發(fā)送的模型參數(shù)進(jìn)行聚合平均,得到最終的全局模型。
進(jìn)一步的,所述本地模型的損失函數(shù)L為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于翼?。ㄉ虾#┬畔⒖萍加邢薰?翼方健數(shù)(北京)信息科技有限公司,未經(jīng)翼健(上海)信息科技有限公司;翼方健數(shù)(北京)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310266368.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種Agent聯(lián)邦快速設(shè)計(jì)流程建模方法
- 基于聯(lián)邦模式的動(dòng)態(tài)產(chǎn)品協(xié)同開發(fā)平臺(tái)及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動(dòng)態(tài)部署分配方法
- 聯(lián)邦學(xué)習(xí)方法、系統(tǒng)、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種混合聯(lián)邦學(xué)習(xí)方法及架構(gòu)
- 聯(lián)邦學(xué)習(xí)的沙盒機(jī)制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種應(yīng)用于異構(gòu)計(jì)算設(shè)備的聯(lián)邦學(xué)習(xí)系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





