[發(fā)明專利]面向自然語言模型的聯(lián)邦小樣本學(xué)習(xí)方法、系統(tǒng)及設(shè)備在審
| 申請?zhí)枺?/td> | 202310208694.7 | 申請日: | 2023-03-07 |
| 公開(公告)號: | CN116127018A | 公開(公告)日: | 2023-05-16 |
| 發(fā)明(設(shè)計)人: | 徐夢煒;蔡棟琪;周傲;馬驍;王尚廣 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F18/214;G06F18/241 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 牛崢;王麗琴 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 自然語言 模型 聯(lián)邦 樣本 學(xué)習(xí)方法 系統(tǒng) 設(shè)備 | ||
本申請實施例公開了一種面向自然語言模型的聯(lián)邦小樣本學(xué)習(xí)方法、系統(tǒng)及設(shè)備,在對自然語言模型進(jìn)行微調(diào)時,由云端服務(wù)器控制多個端側(cè)設(shè)備,采用漸進(jìn)式數(shù)據(jù)增強(qiáng)協(xié)同方式進(jìn)行,即采用基于偽標(biāo)簽方式及提示學(xué)習(xí)方式進(jìn)行融合的聯(lián)邦小樣本學(xué)習(xí)方式與聯(lián)邦學(xué)習(xí)方式協(xié)同進(jìn)行,且在微調(diào)過程中不斷更新最優(yōu)的增強(qiáng)策略,從而使得各個端側(cè)設(shè)備采用的訓(xùn)練數(shù)據(jù)包含少量的有標(biāo)簽的樣本就可以微調(diào)得到精確率高的自然語言模型。因此,本申請實施例可以采用少量的有標(biāo)簽的訓(xùn)練數(shù)據(jù)微調(diào)一個精確率高的自然語言模型,提高微調(diào)后的自然語言模型的精確率。
技術(shù)領(lǐng)域
本申請涉及人工神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種面向自然語言模型的聯(lián)邦小樣本學(xué)習(xí)方法、系統(tǒng)及設(shè)備。
背景技術(shù)
隨著自然語言處理技術(shù)地不斷發(fā)展和端側(cè)設(shè)備計算性能地不斷提升,大量的涉及自然語言處理技術(shù)應(yīng)用被部署到端側(cè)設(shè)備上,比如:輸入法智能補(bǔ)全應(yīng)用、智能問答系統(tǒng)應(yīng)用及個人語言助理應(yīng)用等都可以被部署到端側(cè)設(shè)備上。
為了實現(xiàn)自然語言處理技術(shù)應(yīng)用,就需要對自然語言模型進(jìn)行訓(xùn)練。通常,自然語言模型的訓(xùn)練分為模型預(yù)訓(xùn)練階段和模型微調(diào)階段。其中,在模型預(yù)訓(xùn)練階段,云端服務(wù)器使用大量的中心化公開的訓(xùn)練數(shù)據(jù)訓(xùn)練一個通用的預(yù)訓(xùn)練自然語言模型;在模型微調(diào)階段,根據(jù)不同任務(wù)場景,對該預(yù)訓(xùn)練自然語言模型進(jìn)行微調(diào),以提升模型在特定任務(wù)上的精確率。
訓(xùn)練自然語言模型的核心問題是訓(xùn)練數(shù)據(jù)如何獲取。雖然模型預(yù)訓(xùn)練階段的訓(xùn)練數(shù)據(jù)可以采用大量公開的無標(biāo)簽數(shù)據(jù)集,但是模型微調(diào)階段使用的訓(xùn)練數(shù)據(jù)往往是私密的及有標(biāo)簽的樣本,且分布在大量端側(cè)設(shè)備上,在進(jìn)行微調(diào)時可以將這些樣本集中到一個中心數(shù)據(jù)庫中進(jìn)行集中微調(diào),但是無疑會帶來隱私泄露的問題。此外在模型微調(diào)階段采用的訓(xùn)練數(shù)據(jù)需要有標(biāo)簽,而直接采用已有樣本通常缺少正確的標(biāo)簽甚至沒有標(biāo)簽,即使少數(shù)已有樣本擁有標(biāo)簽,由于已有樣本的異構(gòu)性,聚焦于這些樣本會損傷微調(diào)模型的魯棒性,降低訓(xùn)練得到的模型的精確率。
因此,如何采用少量的有標(biāo)簽的訓(xùn)練數(shù)據(jù)微調(diào)一個精確率高的自然語言模型成為一個亟待解決的問題。
發(fā)明內(nèi)容
有鑒于此,本申請實施例提供一種面向自然語言模型的聯(lián)邦小樣本學(xué)習(xí)方法,該方法能夠采用少量的有標(biāo)簽的訓(xùn)練數(shù)據(jù)微調(diào)一個精確率高的自然語言模型,提高微調(diào)后的自然語言模型的精確率。
本申請實施例還提供一種面向自然語言模型的聯(lián)邦小樣本學(xué)習(xí)系統(tǒng)及設(shè)備,該系統(tǒng)及設(shè)備能夠采用少量的有標(biāo)簽的訓(xùn)練數(shù)據(jù)微調(diào)一個精確率高的自然語言模型,提高微調(diào)后的自然語言模型的精確率。
本申請的一個實施例中,提供一種面向自然語言模型的聯(lián)邦小樣本學(xué)習(xí)方法,所述方法包括:
a、云端服務(wù)器選擇一增強(qiáng)策略;
b、云端服務(wù)器基于所述增強(qiáng)策略,將自然語言模型發(fā)送給兩個端側(cè)設(shè)備集群,以使所述兩個端側(cè)設(shè)備集群分別采用聯(lián)邦學(xué)習(xí)方式及采用預(yù)設(shè)的聯(lián)邦小樣本學(xué)習(xí)方式,對所述自然語言模型進(jìn)行當(dāng)前迭代輪的協(xié)同微調(diào),得到下一迭代輪的所述自然語言模型;
c、云端服務(wù)器基于所述增強(qiáng)策略,將所述下一迭代輪的所述自然語言模型作為當(dāng)前迭代輪的所述自然語言模型,發(fā)送給所述兩個端側(cè)設(shè)備集群,以使所述兩個端側(cè)設(shè)備集群分別采用聯(lián)邦學(xué)習(xí)方式及采用預(yù)設(shè)的聯(lián)邦小樣本學(xué)習(xí)方式,對所述當(dāng)前迭代輪的所述自然語言模型進(jìn)行協(xié)同微調(diào),得到下一迭代輪的所述自然語言模型;
d、云端服務(wù)器確定經(jīng)過所述協(xié)同微調(diào)的迭代輪數(shù)量是否小于設(shè)定的迭代輪閾值,如果是,返回步驟c執(zhí)行,如果否,執(zhí)行步驟e;
e、云端服務(wù)器計算所述下一迭代輪的所述自然語言模型的目標(biāo)結(jié)果精確率是否小于預(yù)設(shè)的精確率閾值,如果是,將所述下一迭代輪的所述自然語言模型作為微調(diào)后的所述自然語言模型,如果否,返回步驟a繼續(xù)執(zhí)行。
在上述方法中的所述步驟a之前,還包括得到至少一增強(qiáng)策略的過程:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310208694.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Agent聯(lián)邦快速設(shè)計流程建模方法
- 基于聯(lián)邦模式的動態(tài)產(chǎn)品協(xié)同開發(fā)平臺及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動態(tài)部署分配方法
- 聯(lián)邦學(xué)習(xí)方法、系統(tǒng)、終端設(shè)備及存儲介質(zhì)
- 一種混合聯(lián)邦學(xué)習(xí)方法及架構(gòu)
- 聯(lián)邦學(xué)習(xí)的沙盒機(jī)制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設(shè)備及存儲介質(zhì)
- 一種應(yīng)用于異構(gòu)計算設(shè)備的聯(lián)邦學(xué)習(xí)系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置





