[發(fā)明專利]一種基于聯(lián)邦學(xué)習(xí)的噪聲標(biāo)簽修正方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110666751.7 | 申請(qǐng)日: | 2021-06-16 |
| 公開(kāi)(公告)號(hào): | CN113379071B | 公開(kāi)(公告)日: | 2022-11-29 |
| 發(fā)明(設(shè)計(jì))人: | 陳益強(qiáng);曾碧霄;楊曉東;于漢超 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06N20/20 | 分類號(hào): | G06N20/20 |
| 代理公司: | 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 聯(lián)邦 學(xué)習(xí) 噪聲 標(biāo)簽 修正 方法 | ||
本發(fā)明提供一種基于聯(lián)邦學(xué)習(xí)的噪聲標(biāo)簽修正方法,包括:將客戶端根據(jù)本地訓(xùn)練數(shù)據(jù)更新的本地模型參數(shù)和對(duì)應(yīng)的樣本數(shù)據(jù)量發(fā)送給服務(wù)端;獲取服務(wù)端根據(jù)客戶端以及其他客戶端更新的本地模型參數(shù)和對(duì)應(yīng)的樣本數(shù)據(jù)量計(jì)算的全局模型參數(shù);由客戶端根據(jù)全局模型參數(shù)和本地訓(xùn)練數(shù)據(jù),計(jì)算指示不同類別的平均預(yù)測(cè)概率的多個(gè)本地類基準(zhǔn)并發(fā)送給服務(wù)端;獲取服務(wù)端根據(jù)多個(gè)本地類基準(zhǔn)計(jì)算的多個(gè)全局類基準(zhǔn),并基于全局模型參數(shù)和全局類基準(zhǔn)對(duì)客戶端的本地訓(xùn)練數(shù)據(jù)進(jìn)行噪聲標(biāo)簽修正。將該修正方法應(yīng)用于聯(lián)邦學(xué)習(xí)系統(tǒng)中,實(shí)現(xiàn)了信息增強(qiáng),減少了數(shù)據(jù)的損失以及對(duì)額外參照集的依賴,有效地提高了聯(lián)邦學(xué)習(xí)訓(xùn)練結(jié)構(gòu)測(cè)試的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及的是分布式機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種基于聯(lián)邦學(xué)習(xí)的噪聲標(biāo)簽修正方法。
背景技術(shù)
隨著分布式機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析的發(fā)展,聯(lián)邦學(xué)習(xí)作為一種新型的分布式機(jī)器學(xué)習(xí)框架,滿足了多個(gè)客戶端(機(jī)構(gòu))在數(shù)據(jù)安全的要求下進(jìn)行模型訓(xùn)練。在模型訓(xùn)練過(guò)程中,服務(wù)端和客戶端之間僅交換模型參數(shù),各客戶端無(wú)需上傳任何原始數(shù)據(jù)。在實(shí)際的聯(lián)邦學(xué)習(xí)場(chǎng)景下,多個(gè)客戶端的加入雖然帶來(lái)了更多的知識(shí),但同時(shí)也增加了數(shù)據(jù)噪聲的風(fēng)險(xiǎn),如多分類任務(wù)中的標(biāo)簽噪聲問(wèn)題。在實(shí)際操作中,標(biāo)簽噪聲的問(wèn)題難以避免,比如眾包標(biāo)定的電商貨品圖片,或者是醫(yī)學(xué)生、非專家標(biāo)定的醫(yī)學(xué)影像,它們的類別標(biāo)簽往往依賴于操作人員的水平以及標(biāo)定過(guò)程的準(zhǔn)確性。這些現(xiàn)實(shí)存在的標(biāo)簽噪聲往往會(huì)影響模型訓(xùn)練的準(zhǔn)確性,除此之外,由于聯(lián)邦學(xué)習(xí)規(guī)定服務(wù)端對(duì)原始數(shù)據(jù)不可見(jiàn),檢測(cè)標(biāo)簽噪聲進(jìn)而對(duì)其進(jìn)行修正變得更具挑戰(zhàn)。
現(xiàn)有研究多認(rèn)為具有錯(cuò)誤標(biāo)簽的樣本是總體數(shù)據(jù)中的異常點(diǎn),常基于服務(wù)端提供的一個(gè)額外的干凈數(shù)據(jù)集來(lái)生成一個(gè)參照模型,用該參照模型來(lái)度量本地?cái)?shù)據(jù)和服務(wù)端標(biāo)準(zhǔn)數(shù)據(jù)的差異,從而進(jìn)行數(shù)據(jù)的篩選或者降低一部分樣本參與訓(xùn)練的權(quán)重。
現(xiàn)有的解決標(biāo)簽噪聲問(wèn)題的技術(shù),往往高度依賴于一個(gè)完全干凈的參照數(shù)據(jù)集,這樣的數(shù)據(jù)集要求標(biāo)注信息完全準(zhǔn)確,獲取數(shù)據(jù)的開(kāi)銷極大。當(dāng)參照數(shù)據(jù)集規(guī)模有限時(shí),其類別分布和總體分布不一定一致,對(duì)于多分類任務(wù)來(lái)說(shuō)其參考價(jià)值也會(huì)大打折扣。另外,現(xiàn)有的技術(shù)側(cè)重于選擇性地降低噪聲數(shù)據(jù)的參與度,本質(zhì)上是一種損失信息的方式。
在進(jìn)行聯(lián)邦學(xué)習(xí)中的標(biāo)簽噪聲研究時(shí),發(fā)現(xiàn)現(xiàn)有技術(shù)中的信息損失問(wèn)題是由于沒(méi)有對(duì)噪聲標(biāo)簽進(jìn)行修正而導(dǎo)致的。標(biāo)簽修正往往需要模型達(dá)到一定的預(yù)測(cè)水平,由于服務(wù)端并不總能提供一個(gè)理想的干凈參照集,通過(guò)參照模型進(jìn)行數(shù)據(jù)預(yù)篩選一類的方法在現(xiàn)實(shí)聯(lián)邦場(chǎng)景中很可能失效,因此在模型達(dá)到穩(wěn)定的預(yù)測(cè)水平之前的這一動(dòng)態(tài)過(guò)程中,各客戶端的數(shù)據(jù)需要遵循一個(gè)噪聲留出機(jī)制以支持動(dòng)態(tài)過(guò)程中的噪聲學(xué)習(xí),并快速提升模型性能,從而實(shí)現(xiàn)最終的修正。而關(guān)于現(xiàn)有技術(shù)的參照集依賴問(wèn)題,本質(zhì)上是忽略了聯(lián)邦學(xué)習(xí)自身的合作特性所導(dǎo)致的。現(xiàn)有的技術(shù)仍處于傳統(tǒng)機(jī)器學(xué)習(xí)方法中的依賴參照集模式,沒(méi)有將重點(diǎn)轉(zhuǎn)移到聯(lián)邦學(xué)習(xí)的“聯(lián)邦”優(yōu)勢(shì)上來(lái),從而不得不依托于一個(gè)額外的參照數(shù)據(jù)集。
因此,亟需一種既能減少信息損失,又能不依賴額外參照集的聯(lián)邦學(xué)習(xí)系統(tǒng)。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的存在的信息損失問(wèn)題和參照集依賴等缺陷,提供一種基于聯(lián)邦學(xué)習(xí)的噪聲標(biāo)簽修正方法。
本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
根據(jù)本發(fā)明的第一方面,提供一種基于聯(lián)邦學(xué)習(xí)的噪聲標(biāo)簽修正方法,包括:將客戶端根據(jù)本地訓(xùn)練數(shù)據(jù)更新的本地模型參數(shù)和對(duì)應(yīng)的樣本數(shù)據(jù)量發(fā)送給服務(wù)端;獲取服務(wù)端根據(jù)所述客戶端以及其他客戶端更新的本地模型參數(shù)和對(duì)應(yīng)的樣本數(shù)據(jù)量計(jì)算的全局模型參數(shù);由所述客戶端根據(jù)所述全局模型參數(shù)和本地訓(xùn)練數(shù)據(jù),計(jì)算指示不同類別的平均預(yù)測(cè)概率的多個(gè)本地類基準(zhǔn)并發(fā)送給服務(wù)端;獲取服務(wù)端根據(jù)所述多個(gè)本地類基準(zhǔn)計(jì)算的多個(gè)全局類基準(zhǔn),并基于所述全局模型參數(shù)和全局類基準(zhǔn)對(duì)所述客戶端的本地訓(xùn)練數(shù)據(jù)進(jìn)行噪聲標(biāo)簽修正。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國(guó)科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110666751.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種Agent聯(lián)邦快速設(shè)計(jì)流程建模方法
- 基于聯(lián)邦模式的動(dòng)態(tài)產(chǎn)品協(xié)同開(kāi)發(fā)平臺(tái)及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動(dòng)態(tài)部署分配方法
- 聯(lián)邦學(xué)習(xí)方法、系統(tǒng)、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種混合聯(lián)邦學(xué)習(xí)方法及架構(gòu)
- 聯(lián)邦學(xué)習(xí)的沙盒機(jī)制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種應(yīng)用于異構(gòu)計(jì)算設(shè)備的聯(lián)邦學(xué)習(xí)系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





