[發明專利]基于知識蒸餾的多層神經網絡語言模型訓練方法與裝置有效
| 申請號: | 202010322267.8 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111611377B | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 高尚兵;李文婷;李偉;王通陽;姚寧波;周泓;朱全銀;相林;于坤;陳曉兵;張正偉 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30;G06F40/211;G06N3/04;G06N3/08;G06N5/02 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 223400 江蘇省淮*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 蒸餾 多層 神經網絡 語言 模型 訓練 方法 裝置 | ||
本發明公開了一種基于知識蒸餾的多層神經網絡語言模型訓練方法與裝置,該方法首先構建BERT語言模型和多層BILSTM模型作為教師模型和學生模型,其中所構建的BERT語言模型中有六層transformer,多層BILSTM模型中有三層BILSTM網絡;然后將文本語料集進行預處理后,對BERT語言模型進行訓練得到訓練好的教師模型;再基于知識蒸餾技術將預處理后的文本語料集輸入到多層BILSTM模型訓練學生模型,在學習教師模型中的嵌入層、隱藏層以及輸出層之時,通過線性變換將不同空間表示進行計算。基于訓練好的學生模型,可將文本進行向量轉換,進而訓練下游網絡更好地進行文本分類。本發明可以有效提升文本預訓練效率以及文本分類任務的精確度。
技術領域
本發明涉及無監督文本預訓練及深度學習領域,具體涉及一種基于知識蒸餾的多層神經網絡語言模型訓練方法與裝置。
背景技術
隨著互聯網上在線文本信息數據的急劇增加,語言模型在信息處理上起著至關重要要的作用,是處理較大規模文本信息的關鍵技術,并推動了信息處理朝著自動化的方向發展,語言模型簡單來說就是一串詞序列的概率分布。搭建一個合理的預訓練語言模型可以解決目前很多文本信息問題,例如文本分類、文本相似度、閱讀理解等等,進而可以高效的利用好現在網絡上大量的文本語料數據,更好地為人們提供更便利的服務。但目前的文本預訓練語言模型大多都是具有著龐大且復雜的網絡結構、訓練速度慢等缺點。
發明內容
發明目的:為了解決現有技術存在的問題,本發明提供一種基于知識蒸餾的多層神經網絡語言模型訓練方法與裝置,以在保證一定精度的前提下,提升文本預訓練效率。
技術方案:為實現上述發明目的,發明所述的一種基于知識蒸餾的多層神經網絡語言模型訓練方法,包括如下步驟:
(1)構建BERT語言模型和多層BILSTM模型作為教師模型和學生模型,其中所構建的BERT語言模型中有六層transformer,多層BILSTM模型中有三層BILSTM網絡;
(2)將文本語料集進行預處理后,對BERT語言模型進行訓練得到訓練好的教師模型;
(3)將預處理后的文本語料集輸入到多層BILSTM模型,對學生模型進行訓練,在學生模型訓練時學習教師模型分別在嵌入層、隱藏層以及輸出層的信息,通過線性變換將不同空間表示進行計算,結合教師模型與學生模型的嵌入層向量輸出的MSE均方誤差、學生模型每一層隱藏層輸出與教師模型與之對應的每層transformer中的輸出的MSE均方誤差、以及教師模型softmax層輸出的概率分布的交叉熵作為知識蒸餾的目標損失函數;最后得到訓練好的學生模型。
所述知識蒸餾的目標損失函數為:
其中,se與te分別代表學生模型與教師模型的嵌入表示,sh與t2h-1分別代表學生模型第h層的隱藏層與與教師模型第2h-1層的隱藏層的輸出,sp與tp分別代表學生模型與教師模型預測的logits輸出入,λe、λhid和λpre分別代表著不同層的重要程度,Lemb、Lhid和Lpre分別代表著不同層的損失計算函數。
教師模型與學生模型在嵌入層的損失計算公式為:
Lemb(se,te)=MSE(seWe,te)
其中,MSE表示均方誤差,We表示線性變換矩陣。
教師模型與學生模型在隱藏層的損失計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010322267.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:加工設備
- 下一篇:一種基于模型融合的OCR識別方法





