[發(fā)明專利]一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法在審
| 申請?zhí)枺?/td> | 202011141916.0 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112434804A | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設(shè)計)人: | 陳軼;張文;崔浩亮;牛少彰;王讓定 | 申請(專利權(quán))人: | 東南數(shù)字經(jīng)濟發(fā)展研究院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 深圳紫晴專利代理事務(wù)所(普通合伙) 44646 | 代理人: | 陳彩云 |
| 地址: | 324000 浙江省衢州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 深度 transformer 級聯(lián) 神經(jīng)網(wǎng)絡(luò) 模型 壓縮 算法 | ||
本發(fā)明提供了一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法,它解決了現(xiàn)有技術(shù)的算法仍然具有進一步壓縮空間的問題。其方法包括:在文本數(shù)據(jù)集上對深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)進行預(yù)訓練;將Transformer級聯(lián)模型按照先后順序劃分成若干份模塊;隨機選擇預(yù)訓練完成的深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)中的某一層Transformer作為替換模塊,此模塊命名為Transformer?compress;在小數(shù)據(jù)集內(nèi)對預(yù)訓練模型進行微調(diào),并且使用模塊逐步替換和模塊間參數(shù)共享的方式對模型進行壓縮。本發(fā)明優(yōu)點在于進一步提升模型壓縮效率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理領(lǐng)域領(lǐng)域,具體涉及一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法。
背景技術(shù)
近年來,隨著深度學習在圖像領(lǐng)域獲得了較大成功,其在自然語言處理領(lǐng)域也取得了突破性進展。基于深度Transformer的級聯(lián)神經(jīng)網(wǎng)絡(luò)在自然語言處理新范式,即自監(jiān)督預(yù)訓練加有監(jiān)督微調(diào)中得到了不錯的性能并不斷刷新GLUE榜單記錄,成為了自然語言處理領(lǐng)域新的研究熱點之一。BERT作為經(jīng)典模型之一在基于文本的用戶畫像、情感分析和輿情分析中都有著廣泛的應(yīng)用前景。但是,此類模型往往體積較大,參數(shù)量多達數(shù)百萬甚至數(shù)十億導致在推理階段內(nèi)存占用和延時都較高,同時增加了生產(chǎn)環(huán)境的硬件部署和能耗成本。這些問題都極大地限制了此類模型的廣泛使用,尤其是在智能移動端設(shè)備上。因此,如何高效地壓縮深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)成為了當下面臨的一個問題。
為了精煉模型,科研人員針對此問題展開了研究,Sanh V等[1]提出DistilBERT算法。該算法在預(yù)訓練階段對BERT模型進行壓縮,將BERT模型中的12層編碼器壓縮至6層。Jiao等[2]提出了TinyBERT算法,將模型壓縮過程分別運用在預(yù)訓練和微調(diào)階段,在減少編碼器層級數(shù)的同時對編碼器維度進行壓縮。然而,上述壓縮算法的實現(xiàn)要涉及模型預(yù)訓練階段,這會導致算法運行的時間成本較高、結(jié)果難以復現(xiàn)等問題。之后,Canwen Xu等[3]提出BERT-of-Theseus算法,該算法僅在微調(diào)階段采用逐步替換BERT編碼器層模塊的方法對BERT模型進行壓縮,有效地降低計算復雜度。但是,從壓縮模型體積角度出發(fā),BERT-of-Theseus算法仍有進一步提升空間。
發(fā)明內(nèi)容
鑒于此,本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法,進一步提升模型壓縮效率。
為實現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:
一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法,包括以下步驟:
步驟A:在文本數(shù)據(jù)集上對深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)進行預(yù)訓練;
步驟B:將Transformer級聯(lián)模型按照先后順序劃分成若干份模塊;
步驟C:隨機選擇預(yù)訓練完成的深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)中的某一層Transformer作為替換模塊,此模塊命名為Transformer-compress;
步驟D:在小數(shù)據(jù)集內(nèi)對預(yù)訓練模型進行微調(diào),并且使用模塊逐步替換和模塊間參數(shù)共享的方式對模型進行壓縮。
在上述的一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法中,在步驟A中的預(yù)訓練具體為在無標簽文本數(shù)據(jù)集上對深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型進行自監(jiān)督預(yù)訓練,訓練任務(wù)為遮掩詞預(yù)測和前后文本預(yù)測,通過反向傳播算法和梯度下降算法對所述模型進行參數(shù)更新,并得到預(yù)訓練模型。
在上述的一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法中,在步驟B中,按照模塊間均等劃分的原則對Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)進行劃分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南數(shù)字經(jīng)濟發(fā)展研究院,未經(jīng)東南數(shù)字經(jīng)濟發(fā)展研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141916.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





