[發明專利]基于知識蒸餾的預訓練語言模型的壓縮方法及平臺有效
| 申請號: | 202010910566.3 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN111767711B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 王宏升;單海軍;鮑虎軍 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06K9/62;G06N5/02;G06N20/00 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 蒸餾 訓練 語言 模型 壓縮 方法 平臺 | ||
1.一種基于知識蒸餾的預訓練語言模型的壓縮方法,其特征在于,該方法對BERT模型進行壓縮,包括特征映射知識蒸餾模塊、自注意力交叉知識蒸餾模塊和基于伯努利概率分布的線性學習模塊;其中,原始的BERT模型為教師模型,壓縮后的BERT模型為學生模型;特征映射知識蒸餾模塊基于一種特征遷移的知識蒸餾策略,在教師模型的知識蒸餾到學生模型的過程中,將學生模型每一層的特征映射逼近教師模型的特征映射,學生模型關注教師模型的中間層特征,并利用這些中間層特征指導學生模型;自注意力交叉知識蒸餾模塊通過交叉連接教師模型和學生模型的自注意力單元,通過在網絡自注意層上進行凸組合交叉連接的方式,實現教師模型和學生模型的深度相互學習;基于伯努利概率分布的線性學習模塊逐漸完成從教師模型到學生模型的特征映射和自注意分布的知識遷移;
所述自注意力交叉知識蒸餾模塊包括以下三個階段:
第一階段:教師網絡的自注意力單元輸入學生網絡,并最小化遷移目標函數,具體地,將教師網絡的自注意力單元當作基本真值,在網絡自注意力單元位置輸入學生網絡,學生網絡接受正確的監督信號以對后續層進行訓練,避免估計誤差過大并傳播的現象;
第二階段:學生網絡的自注意力單元輸入教師網絡,并最小化遷移目標函數;由于估計誤差在學生網絡上逐層傳播,導致在同一層位置上學生網絡輸入和教師網絡輸入存在差異;將學生網絡自注意力單元輸入給教師網絡,實現了在相同輸入前提下讓學生網絡模仿教師網絡的輸出行為;
第三階段:在網絡自注意力單元上將所述第一階段和第二階段的遷移目標函數進行凸組合,實現交叉遷移的蒸餾策略;
所述基于伯努利概率分布的線性學習模塊用于為驅動特征映射知識蒸餾模塊和自注意力交叉知識蒸餾模塊設置不同的線性遷移概率,包括以下兩個步驟:
步驟一:特征映射知識蒸餾模塊和自注意力交叉知識蒸餾模塊均采用伯努利概率分布的遷移概率,即假設當前遷移第i個模塊,先通過一個伯努利分布,采樣一個隨機變量X,X為0或1;當隨機變量為1時代表當前模塊進行遷移學習,否則不進行;
步驟二:雖然步驟一中設置一個恒定的遷移概率p,可以滿足壓縮模型的需要,但是線性學習驅動的遷移概率有助于逐步遷移模型中的編碼器模塊,本步驟設計了一個線性學習驅動的遷移概率plinear來動態調整步驟一中的遷移概率p,即
plinear=min(1,k*i+b)
其中,plinear表示當前遷移模塊的遷移概率,第i個模塊遷移對應當前訓練第i步,b表示未訓練時的初始遷移概率;k為大于0的動態值,且滿足在訓練增加至1000步、5000步、10000步、30000步時,相應地,plinear逐漸增加至0.25、0.5、0.75、1.00。
2.根據權利要求1所述基于知識蒸餾的預訓練語言模型的壓縮方法,其特征在于,所述特征映射知識蒸餾模塊中增加層間歸一化以穩定層間訓練損失;訓練學生網絡時,最小化特征圖轉換中均值和方差兩個統計差異。
3.根據權利要求1所述基于知識蒸餾的預訓練語言模型的壓縮方法,其特征在于,所述自注意力交叉知識蒸餾模塊的遷移目標函數是最小化學生模型和教師模型的注意力分布之間的相對熵。
4.根據權利要求1所述基于知識蒸餾的預訓練語言模型的壓縮方法,其特征在于,所述初始遷移概率b取值范圍在0.1至0.3之間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010910566.3/1.html,轉載請聲明來源鉆瓜專利網。





