[發明專利]正則化神經網絡架構搜索在審
| 申請號: | 201980008348.6 | 申請日: | 2019-02-04 |
| 公開(公告)號: | CN111602148A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 黃彥平;阿洛克·阿加爾瓦爾;國·V·勒;埃斯特班·阿爾貝托·瑞爾 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李寶泉;任慶威 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 正則 神經網絡 架構 搜索 | ||
描述了一種方法,所述方法用于接收用于訓練神經網絡(NN)以執行機器學習任務的訓練數據以及用于使用該訓練數據確定用于執行ML任務的優化的NN架構。確定優化的NN架構包括:保持總體數據,針對候選架構的總體中的每個候選架構,該總體數據包括(i)定義候選架構的數據,以及(ii)指定在確定優化的神經網絡架構時最近如何訓練具有候選架構的神經網絡的數據;以及使用多個工作器計算單元中的每一個來重復執行多個操作以基于所選定的具有最佳擬合度測度的候選架構生成新的候選架構,將新的候選架構添加到總體中,以及從總體中移除最近被訓練最少的候選架構。
相關申請的交叉引用
本申請要求于2018年2月28日提交的美國臨時申請序列號62/625,923的優先權。先前申請的公開內容被認為是本申請的公開內容的一部分,并且通過引用被合并在本申請的公開內容中。
背景技術
本說明書涉及確定神經網絡的架構。
神經網絡是機器學習模型,其采用一層或多層非線性單元來預測針對接收的輸入的輸出。一些神經網絡除輸出層外還包括一個或多個隱藏層。每個隱藏層的輸出用作網絡中下一層,即,下一個隱藏層或輸出層的輸入。網絡的每一層根據相應的參數集的當前值從接收的輸入生成輸出。
一些神經網絡是遞歸神經網絡。遞歸神經網絡是一種接收輸入序列并從輸入序列生成輸出序列的神經網絡。特別地,遞歸神經網絡可以在當前時間步驟計算輸出時使用來自先前時間步驟的一些或全部網絡內部狀態。遞歸神經網絡的示例是長短期(LSTM)神經網絡,其包括一個或多個LSTM存儲塊。每個LSTM存儲塊可以包括一個或多個單元,每個單元包括輸入門、遺忘門和輸出門,允許該單元存儲該單元的先前狀態,例如,用于生成當前激活或提供給LSTM神經網絡的其他組件。
發明內容
通常,本說明書中描述的主題的一個創新方面可以體現在用于確定用于配置成執行機器學習任務的神經網絡的優化的神經網絡架構的方法中。該方法包括:接收用于訓練神經網絡以執行機器學習任務的訓練數據,該訓練數據包括多個訓練示例以及每個訓練示例的相應目標輸出;以及使用訓練數據確定用于執行機器學習任務的優化的神經網絡架構,包括:保持總體數據,針對候選架構的總體中的每個候選架構,該總體數據包括,(i)定義候選架構的數據,以及(ii)指定在確定優化的神經網絡架構時最近如何訓練具有候選架構的神經網絡的數據;以及使用均與每個其他工作器計算單元異步運行的多個工作器計算單元中的每一個來重復執行下述操作:通過工作器計算單元從總體中選擇多個候選架構;針對每個選定的候選架構并且通過工作器計算單元,在訓練數據的訓練子集上訓練具有候選架構的新神經網絡以確定新神經網絡的參數的訓練值;通過在訓練數據的驗證子集上評估訓練的新神經網絡的性能,針對每個選定的候選架構并通過工作器計算單元,確定擬合度測度;通過工作器計算單元,基于所選定的具有最佳擬合度測度候選架構生成新的候選架構;將新的候選架構添加到總體中;以及從總體中移除最近被訓練最少的候選架構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980008348.6/2.html,轉載請聲明來源鉆瓜專利網。





