[發明專利]模型超參數的確定方法及設備、計算設備和介質在審
| 申請號: | 202011148115.7 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112241786A | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 希滕;張剛;溫圣召 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 參數 確定 方法 設備 計算 介質 | ||
1.一種神經網絡模型的超參數確定方法,包括:
在所述神經網絡模型中構建多個搜索空間;
針對所述多個搜索空間中的每一個搜索空間,分別獲取相應的超參數取值集合;
獲取由編碼器生成的一組編碼,其中所述一組編碼中的編碼個數與所述多個搜索空間的個數相同;以及
根據所述一組編碼和所獲取的超參數取值集合確定每一個所述搜索空間所對應的超參數值。
2.如權利要求1所述的方法,還包括:
基于所確定的超參數值對所述神經網絡模型進行訓練;
響應于所述神經網絡模型收斂,獲取所述神經網絡模型的訓練精度;
響應于未達到編碼器更新預設條件,根據所述訓練精度更新所述編碼器以生成新的一組編碼;以及
根據所述新的一組編碼和所述所獲取的超參數取值集合確定每一個所述搜索空間所對應的超參數值。
3.如權利要求1所述的方法,其中,所述多個搜索空間包括粗粒度空間和/或細粒度空間,其中,
在所述粗粒度空間中,一層或多層網絡共享同一個超參數值;以及
在所述細粒度空間中,一個通道或多個通道共享同一個超參數值。
4.如權利要求2所述的方法,其中,所述編碼器基于神經網絡模型。
5.如權利要求2所述的方法,其中,所述編碼器更新預設條件包括以下中的一個或多個:所述神經網絡模型的訓練精度達到預設精度、所述編碼器的更新次數達到預設次數。
6.如權利要求1所述的方法,其中,所述編碼器生成的編碼的取值與所述超參數取值集合的集合大小相對應。
7.如權利要求1所述的方法,其中,所述超參數包括批量歸一化超參數。
8.一種神經網絡模型的超參數確定設備,包括:
搜索空間構建單元,配置為在所述神經網絡模型中構建多個搜索空間;
第一獲取單元,配置為針對所述多個搜索空間中的每一個搜索空間,分別獲取相應的超參數取值集合;
第二獲取單元,配置為獲取由編碼器生成的一組編碼,其中所述一組編碼中的編碼個數與所述多個搜索空間的個數相同;以及
第一確定單元,配置為根據所述一組編碼和所獲取的超參數取值集合確定每一個所述搜索空間所對應的超參數值。
9.如權利要求8所述的設備,還包括:
訓練單元,配置為基于所述確定的超參數值對所述神經網絡模型進行訓練;
第一響應單元,配置為響應于所述神經網絡模型收斂,獲取所述神經網絡模型的訓練精度;
第二響應單元,配置為響應于未達到編碼器更新預設條件,根據所述訓練精度更新所述編碼器以生成新的一組編碼;以及
第二確定單元,配置為根據所述新的一組編碼和所述所獲取的超參數取值集合確定每一個所述搜索空間所對應的超參數值。
10.如權利要求8所述的設備,其中,所述多個搜索空間包括粗粒度空間和/或細粒度空間,其中,
在所述粗粒度空間中,一層或多層網絡共享同一個超參數值;以及
在所述細粒度空間中,一個通道或多個通道共享同一個超參數值。
11.如權利要求9所述的設備,其中,所述編碼器基于神經網絡模型。
12.如權利要求9所述的設備,其中,所述編碼器更新預設條件包括以下中的一個或多個:所述神經網絡模型的訓練精度達到預設精度、所述編碼器的更新次數達到預設次數。
13.如權利要求8所述的設備,其中,所述編碼器生成的編碼的取值與所述超參數取值集合的集合大小相對應。
14.如權利要求8所述的設備,其中,所述超參數包括批量歸一化超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011148115.7/1.html,轉載請聲明來源鉆瓜專利網。





