[發明專利]用于搜索目標模型的方法、裝置和計算設備有效
| 申請號: | 202210935432.6 | 申請日: | 2022-08-05 |
| 公開(公告)號: | CN115017377B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 陳志軒;楊敏;楊作興;艾國 | 申請(專利權)人: | 深圳比特微電子科技有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06N3/04;G06N3/08 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 於菪珉 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 搜索 目標 模型 方法 裝置 計算 設備 | ||
1.一種用于搜索被配置為在目標硬件設備上運行的目標模型的方法,其特征在于,所述方法包括:
構建超網絡,其中,所述超網絡的多個網絡結構參數中的每個網絡結構參數的值被選擇為候選參數空間中該網絡結構參數的最大值,所述超網絡的子網絡的多個網絡結構參數中的每個網絡結構參數的值被選擇為所述候選參數空間中該網絡結構參數的任一值;
分別獨立地對所述超網絡的最大子網絡和最小子網絡進行訓練,以產生經訓練的最大子網絡和經訓練的最小子網絡,其中,所述最大子網絡為所述超網絡,所述最小子網絡的多個網絡結構參數中的每個網絡結構參數的值被選擇為所述候選參數空間中該網絡結構參數的最小值;
基于所述經訓練的最大子網絡和所述經訓練的最小子網絡,對所述超網絡的第一預設數目的第一子網絡進行訓練,其中,所述第一子網絡不同于所述最大子網絡和所述最小子網絡,且針對每個第一子網絡,將所述經訓練的最小子網絡的參數作為所述第一子網絡的相應的參數的初始化值,并將所述經訓練的最大子網絡作為所述第一子網絡的教師網絡,對作為學生網絡的所述第一子網絡進行蒸餾訓練;以及
在經訓練的超網絡中進行搜索以確定符合所述目標硬件設備的性能參數條件的目標量化子網絡的量化網絡結構,并根據所述目標量化子網絡產生目標模型,其中,所述經訓練的超網絡具有浮點精度,且量化網絡結構包括與量化子網絡相應的子網絡的多個網絡結構參數和所述量化子網絡的量化參數。
2.根據權利要求1所述的方法,其特征在于,所述多個網絡結構參數包括卷積核尺寸、階段深度和通道擴張比例系數中的至少一者。
3.根據權利要求1所述的方法,其特征在于,第一預設數目的第一子網絡是通過對所述超網絡進行隨機采樣以獲取的。
4.根據權利要求1所述的方法,其特征在于,將所述經訓練的最小子網絡的參數作為所述第一子網絡的相應的參數的初始化值,并將所述經訓練的最大子網絡作為所述第一子網絡的教師網絡,對作為學生網絡的所述第一子網絡進行蒸餾訓練包括:
針對所述學生網絡的至少一個階段中的至少一個塊,抽取所述教師網絡的相應一個階段中的相應一個塊內的深度卷積之后的特征用于特征蒸餾,計算特征蒸餾損失函數;
針對所述學生網絡的至少一個階段,抽取所述教師網絡的相應一個階段的末尾的軟標簽用于目標蒸餾,計算目標蒸餾損失函數;
根據所述學生網絡和硬標簽計算交叉熵損失函數;
根據所述特征蒸餾損失函數、所述目標蒸餾損失函數和所述交叉熵損失函數,計算總損失函數;以及
基于所述總損失函數對所述學生網絡進行更新,直至完成所述蒸餾訓練。
5.根據權利要求1所述的方法,其特征在于,在所述經訓練的超網絡中進行搜索以確定符合預設條件的目標量化子網絡的量化網絡結構包括:
根據所述經訓練的超網絡獲取量化精度預測器,其中,所述量化精度預測器被配置為根據量化子網絡的量化網絡結構來確定所述量化子網絡的預測精度;以及
利用所述量化精度預測器在所述經訓練的超網絡中進行搜索以確定符合預設條件的目標量化子網絡的量化網絡結構。
6.根據權利要求5所述的方法,其特征在于,根據所述經訓練的超網絡獲取量化精度預測器包括:
對所述經訓練的超網絡進行隨機采樣以獲取第二預設數目的第二子網絡,并根據所述經訓練的超網絡計算每個第二子網絡的預測精度;
根據所述第二預設數目的第二子網絡的網絡結構和預測精度,訓練以產生浮點精度預測器,其中,所述浮點精度預測器被配置為根據子網絡的網絡結構來確定所述子網絡的預測精度,網絡結構包括子網絡的多個網絡結構參數;
基于所述經訓練的超網絡隨機獲取第三預設數目的第一量化子網絡,其中,所述第三預設數目小于所述第二預設數目;
對經訓練的浮點精度預測器進行量化;
根據經量化的浮點精度預測器計算每個第一量化子網絡的預測精度;以及
根據所述第三預設數目的第一量化子網絡的量化網絡結構和預測精度,將所述經訓練的浮點精度預測器的參數作為所述量化精度預測器的相應的參數的初始化值,訓練以產生所述量化精度預測器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳比特微電子科技有限公司,未經深圳比特微電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210935432.6/1.html,轉載請聲明來源鉆瓜專利網。





