[發明專利]超網絡的訓練方法和裝置在審
| 申請號: | 202010567105.0 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111738418A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 希滕;張剛;溫圣召 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 訓練 方法 裝置 | ||
本申請涉及人工智能、深度學習和圖像處理技術領域,公開了超網絡的訓練方法和裝置。該方法包括構建超網絡的搜索空間并初始化超網絡;執行迭代訓練操作:采用超網絡采樣器對超網絡的搜索空間進行修剪,基于修剪后的搜索空間采樣第一子網絡;采用樣本媒體數據訓練第一子網絡,基于訓練后的第一子網絡的參數更新超網絡,對迭代計數器的計數值加1;響應于確定迭代計數器的計數值達到預設的計數閾值,基于更新后的超網絡以及修剪后的超網絡的搜索空間確定第二子網絡,測試第二子網絡的性能;根據第二子網絡的性能更新超網絡采樣器,響應于確定超網絡未達到預設的收斂條件,基于更新后的超網絡采樣器執行迭代訓練操作。該方法提升了超網絡的準確性。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及人工智能、深度學習和圖像處理技術領域,尤其涉及超網絡的訓練方法和裝置。
背景技術
NAS(Neural Architecture Search,神經網絡架構搜索)是通過評估不同的網絡結構的性能來自動搜索出最優的網絡結果的技術。早期的NAS工作需要評估獨立的評估每個子網絡的性能,因此搜索效率非常低。為了提升搜索效率,可以訓練一個超網絡,超網絡所有網絡結構共享超網絡的參數。
然而,在參數共享過程中,幾十億個子網絡共享一個大的超網絡的參數,會導致超網絡的性能與子網絡的性能之間有很大的性能壁壘。從而導致基于超網絡的子網絡性能排序不能客觀的反應出子網絡的性能,由此導致基于超網絡的網絡結構搜索結果的最終性能并不理想。
發明內容
本公開的實施例提供了超網絡的訓練方法和裝置、電子設備以及計算機可讀存儲介質。
根據第一方面,提供了一種超網絡的訓練方法,包括:構建超網絡的搜索空間并初始化超網絡;執行如下迭代訓練操作:采用超網絡采樣器對當前的超網絡的搜索空間進行修剪,并基于修剪后的當前的超網絡的搜索空間采樣出用于訓練的第一子網絡;采用樣本媒體數據訓練第一子網絡,基于訓練后的第一子網絡的參數更新超網絡,并對迭代計數器的計數值加1;響應于確定迭代計數器的計數值達到預設的計數閾值,基于更新后的超網絡以及修剪后的當前的超網絡的搜索空間確定用于評測的第二子網絡,測試第二子網絡的性能;根據第二子網絡的性能更新超網絡采樣器,響應于確定超網絡未達到預設的收斂條件,基于更新后的超網絡采樣器執行迭代訓練操作。
根據第二方面,提供了一種超網絡的訓練裝置,包括:構建單元,被配置為構建超網絡的搜索空間并初始化超網絡;訓練單元,被配置為執行迭代訓練操作;訓練單元包括:修剪單元,被配置為執行迭代操作中的如下步驟:采用超網絡采樣器對當前的超網絡的搜索空間進行修剪,并基于修剪后的當前的超網絡的搜索空間采樣出用于訓練的第一子網絡;更新單元,被配置為執行迭代操作中的如下步驟:采用樣本媒體數據訓練第一子網絡,基于訓練后的第一子網絡的參數更新超網絡,并對迭代計數器的計數值加1;確定單元,被配置為執行迭代操作中的如下步驟:響應于確定迭代計數器的計數值達到預設的計數閾值,基于更新后的超網絡以及修剪后的當前的超網絡的搜索空間確定用于評測的第二子網絡,測試第二子網絡的性能;評估單元,被配置為執行迭代操作中的如下步驟:根據第二子網絡的性能更新超網絡采樣器,響應于確定超網絡未達到預設的收斂條件,基于更新后的超網絡采樣器執行迭代訓練操作。
根據第三方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執行的指令,指令被至少一個處理器執行,以使至少一個處理器能夠執行第一方面提供的超網絡的訓練方法。
根據第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,計算機指令用于使計算機執行第一方面提供的超網絡的訓練方法。
根據本申請的技術通過在超網絡的訓練過程中對超網絡的搜索空間進行修剪,使得超網絡中的子網絡數量逐步減少,從而可以解耦超網絡中部分子網絡的依賴關系,提升訓練完成的超網絡的準確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010567105.0/2.html,轉載請聲明來源鉆瓜專利網。





