[發明專利]模型蒸餾方法、裝置、存儲介質及設備在審
| 申請號: | 202011313330.8 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112465138A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 吳天博;王健宗;程寧 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N5/02 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 蒸餾 方法 裝置 存儲 介質 設備 | ||
本申請實施例公開了一種模型蒸餾方法、裝置、存儲介質及設備。其中,方法包括:獲取用于對預設的學生模型進行訓練的訓練樣本數據,采用預設的學生模型和預設的老師模型分別對訓練樣本數據進行識別,得到訓練樣本數據的老師識別結果和學生識別結果。由老師識別結果獲取用于對預設的學生模型的識別結果進行調整的權重參數,計算老師識別結果和學生識別結果之間的對數,并利用權重參數對對數進行加權運算,以及將計算得到的數值作為損失值對預設的學生模型進行調整。通過本申請可以使學生模型具備老師模型的數據處理能力,提高學生模型的準確度。
技術領域
本申請涉及計算機技術領域,尤其涉及一種模型蒸餾方法、裝置、存儲介質及設備。
背景技術
模型蒸餾作為一種重要的模型壓縮和加速的技術方案近年來備受關注,對自然語言處理領域起到重要的推動作用。模型蒸餾(知識蒸餾)是指用準確度較高但結構復雜的老師模型指導訓練準確度較低但結構簡單的學生模型,以此提升學生模型的準確度。
雖然學生模型能夠從老師模型中學到知識,提升學生模型的準確度。但是現有的蒸餾模型架構中老師模型與學生模型還是存在一定的差異,導致學生模型的表達效果較差以及準確度較低。
發明內容
本申請實施例所要解決的技術問題在于,提供一種模型蒸餾方法、裝置、存儲介質及設備,能夠提高學生模型的準確度和數據處理能力。
本申請實施例一方面提供一種模型蒸餾方法,包括:
獲取用于對預設的學生模型進行訓練的訓練樣本數據;
采用所述預設的學生模型和預設的老師模型分別對所述訓練樣本數據進行識別,得到所述訓練樣本數據的老師識別結果和學生識別結果,其中,所述預設的學生模型由所述預設的老師模型指導訓練得到;
由所述老師識別結果獲取用于對所述預設的學生模型的識別結果進行調整的權重參數;
計算所述老師識別結果和所述學生識別結果之間的對數,并利用所述權重參數對所述對數進行加權運算,以及將計算得到的數值作為損失值對所述預設的學生模型進行調整。
其中,所述老師識別結果為多個,所述老師識別結果表示識別概率;
所述由所述老師識別結果獲取用于對所述預設的學生模型的識別結果進行調整的權重參數,包括:
獲取用于對所述老師識別結果進行平衡的平衡參數;
以所述預設的老師模型的識別順序,將得到的所述多個老師識別結果按照所述平衡參數進行分組,得到依次排列的多個老師識別組,其中,所述多個老師識別組中每個老師識別組中包含相同數目的老師識別結果;
分別計算所述每個老師識別組中多個老師識別結果的平均值,并將得到的多個平均值作為平衡處理后的權重參數。
其中,所述學生識別結果為多個;
所述計算所述老師識別結果和所述學生識別結果之間的對數,并利用所述權重參數對所述對數進行加權運算,包括:
以所述識別順序,將得到的所述多個學生識別結果按照所述平衡參數進行分組,得到依次排列的多個學生識別組,其中,所述多個學生識別組中每個學生識別組包含相同數目的學生識別結果,每個所述老師識別組與每個所述學生識別組按照所述識別順序一一對應;
分別計算所述每個學生識別組中多個學生識別結果的平均值;
分別計算所述每個學生識別組的平均值與對應的老師識別組的平均值的對數,得到多個平衡處理后的對數;
將所述平衡處理后的權重參數與所述平衡處理后的對數進行加權運算。
其中,所述獲取用于對所述老師識別結果進行平衡的平衡參數,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011313330.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高強度金屬化薄膜電容器及其制備裝置
- 下一篇:一種具有整理功能的學生書架





