[發明專利]一種深度Transformer級聯神經網絡模型壓縮算法在審
| 申請號: | 202011141916.0 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112434804A | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 陳軼;張文;崔浩亮;牛少彰;王讓定 | 申請(專利權)人: | 東南數字經濟發展研究院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 深圳紫晴專利代理事務所(普通合伙) 44646 | 代理人: | 陳彩云 |
| 地址: | 324000 浙江省衢州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 transformer 級聯 神經網絡 模型 壓縮 算法 | ||
1.一種深度Transformer級聯神經網絡模型壓縮算法,其特征在于,包括以下步驟:
步驟A:在文本數據集上對深度Transformer級聯神經網絡進行預訓練;
步驟B:將Transformer級聯模型按照先后順序劃分成若干份模塊;
步驟C:隨機選擇預訓練完成的深度Transformer級聯神經網絡中的某一層Transformer作為替換模塊,此模塊命名為Transformer-compress;
步驟D:在小數據集內對預訓練模型進行微調,并且使用模塊逐步替換和模塊間參數共享的方式對模型進行壓縮。
2.根據權利要求1所述的一種深度Transformer級聯神經網絡模型壓縮算法,其特征在于,在步驟A中的預訓練具體為在無標簽文本數據集上對深度Transformer級聯神經網絡模型進行自監督預訓練,訓練任務為遮掩詞預測和前后文本預測,通過反向傳播算法和梯度下降算法對所述模型進行參數更新,并得到預訓練模型。
3.根據權利要求1所述的一種深度Transformer級聯神經網絡模型壓縮算法,其特征在于,在步驟B中,按照模塊間均等劃分的原則對Transformer級聯神經網絡進行劃分。
4.根據權利要求1所述的一種深度Transformer級聯神經網絡模型壓縮算法,其特征在于,在步驟D中,在微調前半階段,原先網絡模型劃分完成的模塊分別以一定概率被替換成Transformer-compress模塊,在微調后半階段,原先網絡模型劃分完成的模塊全部被替換成Transformer-compress模塊。
5.根據權利要求4所述的一種深度Transformer級聯神經網絡模型壓縮算法,其特征在于,在步驟D中,不同位置的Transformer-compress模塊之間參數共享。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南數字經濟發展研究院,未經東南數字經濟發展研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141916.0/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





