[發明專利]基于知識蒸餾的預訓練語言模型的壓縮方法及平臺有效
| 申請號: | 202010910566.3 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN111767711B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 王宏升;單海軍;鮑虎軍 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06K9/62;G06N5/02;G06N20/00 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 蒸餾 訓練 語言 模型 壓縮 方法 平臺 | ||
本發明公開了一種基于知識蒸餾的預訓練語言模型的壓縮方法及平臺,該方法首先設計一種普適的特征遷移的知識蒸餾策略,在教師模型的知識蒸餾到學生模型的過程中,將學生模型每一層的特征映射逼近教師的特征,重點關注小樣本在教師模型中間層特征表達能力,并利用這些特征指導學生模型;然后利用教師模型的自注意力分布具有檢測詞語之間語義和句法的能力構建一種基于自注意力交叉知識蒸餾方法;最后為了提升學習模型訓練前期的學習質量和訓練后期的泛化能力,設計了一種基于伯努利概率分布的線性遷移策略逐漸完成從教師到學生的特征映射和自注意分布的知識遷移。通過本發明,將面向多任務的預訓練語言模型進行自動壓縮,提高語言模型的壓縮效率。
技術領域
本發明屬于面向多任務的預訓練語言模型自動壓縮領域,尤其涉及一種基于知識蒸餾的預訓練語言模型的壓縮方法及平臺。
背景技術
隨著智能設備的普及,大規模語言模型在智能手機、可穿戴設備等嵌入式設備上的應用越來越常見,然而深度學習網絡規模卻在不斷增大,計算復雜度隨之增高,嚴重限制了其在手機等智能設備上的應用,如今的應對方法還是單向地從教師模型的知識蒸餾到學生模型的壓縮方法,但是小樣本在大規模語言模型壓縮過程中難泛化的問題依然存在。
發明內容
本發明的目的在于針對現有技術的不足,提供一種基于知識蒸餾的預訓練語言模型的壓縮方法及平臺。本發明基于知識蒸餾的預訓練語言模型壓縮,設計一個與任務無關的小模型去學習一個大模型的表達能力,壓縮出某一類任務通用的架構,充分利用已壓縮好的模型架構,提高模型壓縮效率。具體地,通過特征映射知識蒸餾模塊、自注意力交叉知識蒸餾和基于伯努利概率分布的線性遷移策略,實現了教師模型和學生模型在訓練過程中漸進式地相互學習,從而提高了小樣本情況下學生模型訓練前期的學習質量和訓練后期的泛化能力。
本發明的目的是通過以下技術方案來實現的:一種基于知識蒸餾的預訓練語言模型的壓縮方法,該方法對BERT模型進行壓縮,包括特征映射知識蒸餾模塊、自注意力交叉知識蒸餾模塊和基于伯努利概率分布的線性學習模塊;其中,原始的模型為教師模型,壓縮后的模型為學生模型;特征映射知識蒸餾模塊基于一種特征遷移的知識蒸餾策略,在教師模型的知識蒸餾到學生模型的過程中,將學生模型每一層的特征映射逼近教師模型的特征映射,學生模型關注教師模型的中間層特征,并利用這些中間層特征指導學生模型;自注意力交叉知識蒸餾模塊通過交叉連接教師模型和學生模型的自注意力模塊,通過在網絡自注意層上進行凸組合交叉連接的方式,實現教師模型和學生模型的深度相互學習;基于伯努利概率分布的線性學習模塊逐漸完成從教師模型到學生模型的特征映射和自注意分布的知識遷移。
進一步地,所述特征映射知識蒸餾模塊中增加層間歸一化以穩定層間訓練損失;訓練學生網絡時,最小化特征圖轉換中均值和方差兩個統計差異。
進一步地,所述自注意力交叉知識蒸餾模塊的遷移目標函數是最小化學生模型和教師模型的注意力分布之間的相對熵。
進一步地,所述自注意力交叉知識蒸餾模塊包括以下三個階段:
第一階段:教師網絡的自注意力單元輸入學生網絡,并最小化遷移目標函數,具體地,將教師網絡的自注意力單元當作基本真值,在網絡自注意力單元位置輸入學生網絡,學生網絡接受正確的監督信號以對后續層進行訓練,避免估計誤差過大并傳播的現象;
第二階段:學生網絡的自注意力單元輸入教師網絡,并最小化遷移目標函數;由于估計誤差在學生網絡上逐層傳播,導致在同一層位置上學生網絡輸入和教師網絡輸入存在差異;將學生網絡自注意力單元輸入給教師網絡,實現了在相同輸入前提下讓學生網絡模仿教師網絡的輸出行為;
第三階段:在網絡自注意力單元上將所述第一階段和第二階段的遷移目標函數進行凸組合,實現交叉遷移的蒸餾策略。
進一步地,所述基于伯努利概率分布的線性學習模塊用于為驅動特征映射知識蒸餾模塊和自注意力交叉知識蒸餾模塊設置不同的線性遷移概率,包括以下兩個步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010910566.3/2.html,轉載請聲明來源鉆瓜專利網。





