[發明專利]一種神經網絡結構搜索方法、裝置及設備有效
| 申請號: | 201911185743.X | 申請日: | 2019-11-27 |
| 公開(公告)號: | CN111126564B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 侯廣健 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06N3/0464 | 分類號: | G06N3/0464;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 神經網絡 結構 搜索 方法 裝置 設備 | ||
本申請實施例公開了一種神經網絡結構搜索方法、裝置及設備,在獲取到超參數搜索模型輸出的一組超參數之后,先利用該組超參數中的結構超參數,搜索得到當前神經網絡基本單元結構,以便根據該當前神經網絡基本單元結構建立第一神經網絡模型;再利用該組超參數中的訓練超參數對第一神經網絡模型進行訓練,生成第二神經網絡模型,并對該第二神經網絡模型進行測試得到評估結果,以便基于該評估結果更新超參數搜索模型并重新返回執行獲取超參數搜索模型輸出的一組超參數的步驟。如此循環搜索直至達到預設停止條件時停止搜索,并將當前的第二神經網絡模型確定為目標神經網絡模型。如此能夠有效地提高神經網絡模型的任務執行效果。
技術領域
本申請涉及自動化機器學習技術領域,具體涉及一種神經網絡結構搜索方法、裝置及設備。
背景技術
神經網絡模型是實現人工智能的優選方案,一般神經網絡模型的構建流程可以包括:(1)對訓練驗證數據集進行預處理(其中,預處理可以包括數據增強、數據平衡、數據歸一化等處理手段);(2)搭建神經網絡模型的網絡結構(也就是,確定神經網絡模型中節點數、節點操作類型以及節點連接關系等結構信息);(3)利用訓練驗證數據集對神經網絡模型進行訓練及驗證,以便獲得最終的神經網絡模型。
其中,因神經網絡模型的網絡結構(簡稱為神經網絡結構)對該神經網絡模型的任務執行效果有著決定性的作用,使得神經網絡結構的恰當與否能夠嚴重影響神經網絡模型的任務執行效果,如此使得神經網絡結構的搭建過程在構建神經網絡模型的過程中占據有重要地位。然而,因神經網絡結構是由大量超參數決定的,且大量超參數的確定過程是十分艱難的,使得神經網絡結構的搜索過程是困難的。基于此可知,如何實現神經網絡結構的搜索是一件亟待解決的技術問題。
發明內容
有鑒于此,本申請實施例提供一種神經網絡結構搜索方法、裝置及設備,能夠快速地搜索到恰當的神經網絡結構,提高了神經網絡結構的搜索效率。
為解決上述問題,本申請實施例提供的技術方案如下:
一種神經網絡結構搜索方法,所述方法包括:
獲取超參數搜索模型輸出的一組超參數,所述超參數包括神經網絡基本單元的結構超參數以及神經網絡模型的訓練超參數;
利用所述結構超參數,搜索得到當前神經網絡基本單元結構;
根據所述當前神經網絡基本單元結構建立第一神經網絡模型,利用所述訓練超參數對所述第一神經網絡模型進行訓練,生成第二神經網絡模型;
對所述第二神經網絡模型進行測試,得到評估結果;
根據所述評估結果更新所述超參數搜索模型,重新返回執行所述獲取超參數搜索模型輸出的一組超參數以及后續步驟,直到達到預設停止條件,將當前的第二神經網絡模型確定為目標神經網絡模型。
在一種可能的實現方式中,所述利用所述結構超參數,搜索得到當前神經網絡基本單元結構,包括:
利用所述結構超參數,迭代第一預設次數搜索得到當前神經網絡基本單元結構;
所述根據所述當前神經網絡基本單元結構建立第一神經網絡模型,利用所述訓練超參數對所述第一神經網絡模型進行訓練,生成第二神經網絡模型,包括:
根據所述當前神經網絡基本單元結構建立第一神經網絡模型;
利用所述訓練超參數,迭代第二預設次數對所述第一神經網絡模型進行訓練,生成第二神經網絡模型。
在一種可能的實現方式中,所述利用所述結構超參數,迭代第一預設次數搜索得到當前神經網絡基本單元結構,包括:
利用所述結構超參數以及第一數據集,迭代第一預設次數搜索得到當前神經網絡基本單元結構;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911185743.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種彈簧墊圈韌性試驗裝置
- 下一篇:一種終端業務的控制方法和裝置





