[發(fā)明專利]一種bert模型壓縮加速的方法、系統(tǒng)、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202011438005.4 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112613614A | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設(shè)計)人: | 王曦輝 | 申請(專利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06N5/04 | 分類號: | G06N5/04;G06N20/20 |
| 代理公司: | 北京連和連知識產(chǎn)權(quán)代理有限公司 11278 | 代理人: | 張濤;陳黎明 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 bert 模型 壓縮 加速 方法 系統(tǒng) 設(shè)備 介質(zhì) | ||
本發(fā)明公開了一種bert模型壓縮加速的方法、系統(tǒng)、設(shè)備和存儲介質(zhì),方法包括:構(gòu)建第一學(xué)生模型,使用通用數(shù)據(jù)集訓(xùn)練所述第一學(xué)生模型,并基于基準(zhǔn)bert模型將所述第一學(xué)生模型轉(zhuǎn)化為預(yù)訓(xùn)練bert模型;構(gòu)建第二學(xué)生模型,使用自然語言任務(wù)數(shù)據(jù)集訓(xùn)練所述第二學(xué)生模型,并基于所述預(yù)訓(xùn)練bert模型將所述第二學(xué)生模型轉(zhuǎn)換為偽量化模型;以及將所述偽量化模型轉(zhuǎn)換成量化模型,并對所述量化模型的算子進(jìn)行合并以生成推理引擎。本發(fā)明壓縮了bert模型的體積,加快了推理速度,提高了bert模型的整體性能。
技術(shù)領(lǐng)域
本發(fā)明涉及模型推理領(lǐng)域,更具體地,特別是指一種bert模型壓縮加速的方法、系統(tǒng)、計算機(jī)設(shè)備及可讀介質(zhì)。
背景技術(shù)
在NLP(Natural Language Processing,自然語言處理)領(lǐng)域,BERT模型的強(qiáng)大毫無疑問,但由于模型過于龐大,單個樣本計算一次的開銷動輒上百毫秒,很難應(yīng)用到實際生產(chǎn)中。對于bert模型的壓縮,現(xiàn)有技術(shù)包括Bert模型蒸餾,量化和裁剪。在自然語言理解任務(wù)中,如果直接使用int8量化技術(shù)來加速模型的推理速度,雖然可以獲得2倍的加速效果,但是精度會出現(xiàn)嚴(yán)重下降,而且偽量化模型不能直接進(jìn)行推理運算。如果僅用知識蒸餾對bert模型進(jìn)行壓縮,對模型推理的加速效果也不太理想。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例的目的在于提出一種bert模型壓縮加速的方法、系統(tǒng)、計算機(jī)設(shè)備及計算機(jī)可讀存儲介質(zhì),在訓(xùn)練階段采用模型蒸餾和量化等手段進(jìn)行模型壓縮,在推理階段采用模型轉(zhuǎn)換和算子合并等手段完成模型的實際推理應(yīng)用,大大壓縮了bert模型的體積,并且提高了推理速度。
基于上述目的,本發(fā)明實施例的一方面提供了一種bert模型壓縮加速的方法,包括如下步驟:構(gòu)建第一學(xué)生模型,使用通用數(shù)據(jù)集訓(xùn)練所述第一學(xué)生模型,并基于基準(zhǔn)bert模型將所述第一學(xué)生模型轉(zhuǎn)化為預(yù)訓(xùn)練bert模型;構(gòu)建第二學(xué)生模型,使用自然語言任務(wù)數(shù)據(jù)集訓(xùn)練所述第二學(xué)生模型,并基于所述預(yù)訓(xùn)練bert模型將所述第二學(xué)生模型轉(zhuǎn)換為偽量化模型;以及將所述偽量化模型轉(zhuǎn)換成量化模型,并對所述量化模型的算子進(jìn)行合并以生成推理引擎。
在一些實施方式中,所述基于基準(zhǔn)bert模型將所述第一學(xué)生模型轉(zhuǎn)化為預(yù)訓(xùn)練bert模型包括:將基準(zhǔn)bert模型作為老師模型,構(gòu)建所述老師模型和所述第一學(xué)生模型之間對應(yīng)層蒸餾的目標(biāo)代價函數(shù),最小化所述目標(biāo)代價函數(shù)以將所述第一學(xué)生模型轉(zhuǎn)化為預(yù)訓(xùn)練bert模型。
在一些實施方式中,所述將所述偽量化模型轉(zhuǎn)換成量化模型包括:對所述偽量化模型進(jìn)行解析以獲得偽量化節(jié)點,將所述偽量化節(jié)點轉(zhuǎn)換為量化節(jié)點和反量化節(jié)點。
在一些實施方式中,所述對所述量化模型的算子進(jìn)行合并以生成推理引擎包括:對矩陣乘法中的權(quán)重進(jìn)行量化以生成包括比例系數(shù)的新權(quán)重,提取所述比例系數(shù)并與下一個輸入量化層的量化系數(shù)進(jìn)行合并。
本發(fā)明實施例的另一方面,還提供了一種bert模型壓縮加速系統(tǒng),包括:第一訓(xùn)練模塊,配置用于構(gòu)建第一學(xué)生模型,使用通用數(shù)據(jù)集訓(xùn)練所述第一學(xué)生模型,并基于基準(zhǔn)bert模型將所述第一學(xué)生模型轉(zhuǎn)化為預(yù)訓(xùn)練bert模型;第二訓(xùn)練模塊,配置用于構(gòu)建第二學(xué)生模型,使用自然語言任務(wù)數(shù)據(jù)集訓(xùn)練所述第二學(xué)生模型,并基于所述預(yù)訓(xùn)練bert模型將所述第二學(xué)生模型轉(zhuǎn)換為偽量化模型;以及量化模塊,配置用于將所述偽量化模型轉(zhuǎn)換成量化模型,并對所述量化模型的算子進(jìn)行合并以生成推理引擎。
在一些實施方式中,所述第一訓(xùn)練模塊配置用于:將基準(zhǔn)bert模型作為老師模型,構(gòu)建所述老師模型和所述第一學(xué)生模型之間對應(yīng)層蒸餾的目標(biāo)代價函數(shù),最小化所述目標(biāo)代價函數(shù)以將所述第一學(xué)生模型轉(zhuǎn)化為預(yù)訓(xùn)練bert模型。
在一些實施方式中,所述量化模塊配置用于:對所述偽量化模型進(jìn)行解析以獲得偽量化節(jié)點,將所述偽量化節(jié)點轉(zhuǎn)換為量化節(jié)點和反量化節(jié)點。
在一些實施方式中,所述量化模塊配置用于:對矩陣乘法中的權(quán)重進(jìn)行量化以生成包括比例系數(shù)的新權(quán)重,提取所述比例系數(shù)并與下一個輸入量化層的量化系數(shù)進(jìn)行合并。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011438005.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓(xùn)練方法、裝置和計算機(jī)設(shè)備
- 融合外部知識的BERT模型的微調(diào)方法、裝置及計算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識元自動抽取方法





