[發明專利]超參數的選取方法、使用方法、裝置及電子設備在審
| 申請號: | 201811604530.1 | 申請日: | 2018-12-26 |
| 公開(公告)號: | CN109711548A | 公開(公告)日: | 2019-05-03 |
| 發明(設計)人: | 李士鈺;白椿山 | 申請(專利權)人: | 歌爾股份有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京博雅睿泉專利代理事務所(特殊普通合伙) 11442 | 代理人: | 郭少晶 |
| 地址: | 261031 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預設 裝置及電子設備 評價指標 步數 訓練樣本集 獲取目標 數值集合 訓練樣本 網絡 學習 | ||
本發明公開了一種超參數的選取方法、使用方法、裝置及電子設備。超參數的選取方法包括:獲取目標超參數的多個候選超參數值;分別將每個候選超參數值作為預設的深度學習網絡的對應目標超參數的超參數值,對包括多個訓練樣本的訓練樣本集,基于預設的深度學習網絡進行符合預設的訓練步數的訓練,得到每個候選超參數值在作為預設的深度學習網絡的對應目標超參數的超參數值時,在每一步訓練后的評價指標;根據評價指標,選取每一步訓練的最優超參數值,得到由訓練步數中每一步訓練的最優超參數值構成的、目標超參數的最優超參數值集合。
技術領域
本發明涉及機器學習技術領域,更具體地,涉及一種超參數的選取方法、使用方法、裝置及電子設備。
背景技術
隨著基于機器學習網絡模型的人工智能技術在圖像識別、自然語言處理、序列決策等場景中的應用越來越普遍,顯著提高應用場景中的操作效率,為人們的生產和生活帶來了極大的便利。
而機器學習網絡模型的使用,離不開對機器學習網絡模型的訓練。機器學習網絡模型的訓練包括調整機器學習網絡模型所基于的深度學習網絡的參數。而深度學習網絡的參數除了網絡結構本身的權重參數之外,還包括一些不屬于深度學習網絡本身在學習訓練過程中所求解的參數,這些參數被稱為超參數。
常用的深度學習網絡例如R-CNN(Region-Convolutional Neural Networks,區域卷積神經網絡)、resnet(Residual Neural Network,殘差神經網絡)等,超參數通常包括學習率(Learning Rate)、批大小(batch size)、網絡單元丟棄率(dropout)等。
深度學習網絡的超參數會影響深度學習網絡的收斂正確率、收斂速度以及基于深度學習網絡訓練的機器學習網絡模型的檢測性能等。因此,超參數的選擇對于機器學習網絡模型的訓練至關重要。
現有的超參數的選擇,主要依賴于實施訓練機器學習模型的訓練人員根據自身的模型訓練經驗來實施,訓練人員通常是比較模型訓練的訓練結果,選擇出自身認為較好的一組訓練結果對應的超參數,但是,這樣的超參數選擇方式,往往受限于訓練人員自身的經驗,并不能保證選擇的超參數的準確性。
發明內容
本發明的一個目的是提供一種用于選取超參數的新技術方案。
根據本發明的第一方面,提供了一種超參數的選取方法,其中,包括:
獲取目標超參數的多個候選超參數值;
分別將每個所述候選超參數值作為預設的深度學習網絡的對應目標超參數的超參數值,對包括多個訓練樣本的訓練樣本集,基于所述預設的深度學習網絡進行符合預設的訓練步數的訓練,得到每個所述候選超參數值在作為所述預設的深度學習網絡的對應目標超參數的超參數值時,在每一步訓練后的評價指標;
根據所述評價指標,選取每一步訓練的最優超參數值,得到由所述訓練步數中每一步訓練的所述最優超參數值構成的、所述目標超參數的最優超參數值集合。
可選地,所述獲取目標超參數的多個候選超參數值的步驟包括:
在預設的取值區間中,選取多個符合預設的精度需求的數值作為所述候選超參數值;
和/或,
所述根據所述評價指標,選取每一步訓練的最優超參數值的步驟包括:
從所述多個候選超參數值中,選取每一步訓練后所述評價指標最高的所述候選超參數值,作為每一步訓練的所述最優超參數值。
可選地,所述得到每個所述候選超參數值在作為所述預設的深度學習網絡的對應目標超參數的超參數值時,在每一步訓練后的評價指標的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于歌爾股份有限公司,未經歌爾股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811604530.1/2.html,轉載請聲明來源鉆瓜專利網。





