[發(fā)明專(zhuān)利]基于模型壓縮的模型生成在審
| 申請(qǐng)?zhí)枺?/td> | 201910588384.6 | 申請(qǐng)日: | 2019-07-02 |
| 公開(kāi)(公告)號(hào): | CN112257860A | 公開(kāi)(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 姜大昕;壽林鈞;公明;楊澤;林武桃;程飛翔;白軒宇;王雪云 | 申請(qǐng)(專(zhuān)利權(quán))人: | 微軟技術(shù)許可有限責(zé)任公司 |
| 主分類(lèi)號(hào): | G06N3/08 | 分類(lèi)號(hào): | G06N3/08;G06F16/332;G06F16/35;G06F40/295;G06F40/20 |
| 代理公司: | 永新專(zhuān)利商標(biāo)代理有限公司 72002 | 代理人: | 張立達(dá) |
| 地址: | 美國(guó)華*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模型 壓縮 生成 | ||
本公開(kāi)提供了一種用于模型生成的方法和裝置。可以通過(guò)多個(gè)預(yù)訓(xùn)練模型對(duì)預(yù)訓(xùn)練數(shù)據(jù)集合進(jìn)行評(píng)分,所述多個(gè)預(yù)訓(xùn)練模型執(zhí)行第一任務(wù)。可以利用經(jīng)評(píng)分的預(yù)訓(xùn)練數(shù)據(jù)集合來(lái)預(yù)訓(xùn)練初始模型。可以基于多個(gè)參考模型來(lái)更新所述初始模型,以獲得目標(biāo)模型,所述多個(gè)參考模型執(zhí)行第二任務(wù)。可以通過(guò)所述多個(gè)參考模型對(duì)參考數(shù)據(jù)集合進(jìn)行評(píng)分。可以利用經(jīng)評(píng)分的參考數(shù)據(jù)集合來(lái)訓(xùn)練所述目標(biāo)模型。
背景技術(shù)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,各種各樣的深度學(xué)習(xí)模型得以不斷地開(kāi)發(fā),并在諸如自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域有出色表現(xiàn)。例如,在自然語(yǔ)言處理領(lǐng)域,諸如來(lái)自轉(zhuǎn)換器的雙向編碼器表示(Bidirectional Encoder Resentations from Transformers,BERT)模型和生成式預(yù)訓(xùn)練轉(zhuǎn)換器(Generative Pre-trained Transformer,GPT)模型之類(lèi)的深度學(xué)習(xí)模型被證明具有良好的效果。這類(lèi)深度學(xué)習(xí)模型往往是依賴(lài)于具有巨量參數(shù)的深度網(wǎng)絡(luò)的復(fù)雜模型,例如BERT模型可能包含24個(gè)轉(zhuǎn)換器層共3.4億參數(shù),GPT模型可能包含48個(gè)轉(zhuǎn)換器層共15億參數(shù)。訓(xùn)練這樣的復(fù)雜模型和使用這樣的復(fù)雜模型進(jìn)行推斷都是十分耗時(shí)的,從而難以將其應(yīng)用于實(shí)際的商業(yè)場(chǎng)景。通常采用模型壓縮方法來(lái)獲得具有比復(fù)雜模型更少參數(shù)的、能夠部署的簡(jiǎn)單模型。
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便介紹一組概念,這組概念將在以下的具體實(shí)施方式中做進(jìn)一步描述。本發(fā)明內(nèi)容并非旨在標(biāo)識(shí)所保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在用于限制所保護(hù)主題的范圍。
本公開(kāi)的實(shí)施例提供了一種用于模型生成的方法和裝置。可以通過(guò)多個(gè)預(yù)訓(xùn)練模型對(duì)預(yù)訓(xùn)練數(shù)據(jù)集合進(jìn)行評(píng)分,所述多個(gè)預(yù)訓(xùn)練模型執(zhí)行第一任務(wù)。可以利用經(jīng)評(píng)分的預(yù)訓(xùn)練數(shù)據(jù)集合來(lái)預(yù)訓(xùn)練初始模型。可以基于多個(gè)參考模型來(lái)更新所述初始模型,以獲得目標(biāo)模型,所述多個(gè)參考模型執(zhí)行第二任務(wù)。可以通過(guò)所述多個(gè)參考模型對(duì)參考數(shù)據(jù)集合進(jìn)行評(píng)分。可以利用經(jīng)評(píng)分的參考數(shù)據(jù)集合來(lái)訓(xùn)練所述目標(biāo)模型。
應(yīng)當(dāng)注意,以上一個(gè)或多個(gè)方面包括以下詳細(xì)描述以及權(quán)利要求中具體指出的特征。下面的說(shuō)明書(shū)及附圖詳細(xì)提出了所述一個(gè)或多個(gè)方面的某些說(shuō)明性特征。這些特征僅僅指示可以實(shí)施各個(gè)方面的原理的多種方式,并且本公開(kāi)旨在包括所有這些方面和其等同變換。
附圖說(shuō)明
以下將結(jié)合附圖描述所公開(kāi)的多個(gè)方面,這些附圖被提供用以說(shuō)明而非限制所公開(kāi)的多個(gè)方面。
圖1示出了根據(jù)本公開(kāi)實(shí)施例的基于模型壓縮的模型生成的示例性過(guò)程。
圖2示出了根據(jù)本公開(kāi)實(shí)施例的學(xué)生模型的示意圖。
圖3示出了根據(jù)本公開(kāi)實(shí)施例的初始模型的示意圖。
圖4示出了根據(jù)本公開(kāi)實(shí)施例的預(yù)訓(xùn)練初始模型的示例性過(guò)程。
圖5示出了根據(jù)本公開(kāi)實(shí)施例的預(yù)訓(xùn)練初始模型的具體示例。
圖6示出了根據(jù)本公開(kāi)實(shí)施例的目標(biāo)模型的示意圖。
圖7示出了根據(jù)本公開(kāi)實(shí)施例的訓(xùn)練目標(biāo)模型的示例性過(guò)程。
圖8示出了根據(jù)本公開(kāi)實(shí)施例的訓(xùn)練目標(biāo)模型的具體示例。
圖9示出了根據(jù)本公開(kāi)實(shí)施例的在部署階段執(zhí)行任務(wù)的示例性過(guò)程。
圖10示出了根據(jù)本公開(kāi)實(shí)施例的在部署階段執(zhí)行任務(wù)的具體示例。
圖11是根據(jù)本公開(kāi)實(shí)施例的用于模型生成的示例性方法的流程圖。
圖12示出了根據(jù)本公開(kāi)實(shí)施例的用于模型生成的示例性裝置。
圖13示出了根據(jù)本公開(kāi)實(shí)施例的用于模型生成的示例性裝置。
具體實(shí)施方式
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于微軟技術(shù)許可有限責(zé)任公司,未經(jīng)微軟技術(shù)許可有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910588384.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)





