[發(fā)明專利]一種深度學(xué)習(xí)中超參數(shù)的優(yōu)化選取方法在審
| 申請?zhí)枺?/td> | 201810282510.0 | 申請日: | 2018-04-02 |
| 公開(公告)號: | CN108470210A | 公開(公告)日: | 2018-08-31 |
| 發(fā)明(設(shè)計)人: | 曹連雨 | 申請(專利權(quán))人: | 中科弘云科技(北京)有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市海淀區(qū)西二旗*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 預(yù)估 并行計算 參數(shù)優(yōu)化 定義函數(shù) 模型參數(shù) 評估模型 隨機(jī)選取 訓(xùn)練模型 有效減少 預(yù)設(shè)條件 資源消耗 采樣點 淘汰 方差 排序 優(yōu)化 耗時 進(jìn)化 學(xué)習(xí) | ||
本發(fā)明公開了一種深度學(xué)習(xí)中超參數(shù)的優(yōu)化選取方法,其步驟為:定義n個待訓(xùn)練模型;定義函數(shù)eval以當(dāng)前變化的模型參數(shù)θ的值來評估模型的優(yōu)劣,隨機(jī)選取數(shù)個θ的值,計算得出相應(yīng)的eval(θ);計算這些點中每一個點的均值和方差,再預(yù)估可能的使eval(θ|h)最大的θ取值;得到下一采樣點后,計算eval(θ|h);如果此時的step數(shù)滿足預(yù)設(shè)條件則進(jìn)入下一步驟,否則回到循環(huán);計算當(dāng)前所有并行計算模型的eval(θ|h),并將其從大到小排序,定義優(yōu)質(zhì)及劣質(zhì);對每一個劣質(zhì)模型進(jìn)行淘汰操作;對每一個完成淘汰操作的劣質(zhì)模型,立即進(jìn)行進(jìn)化操作;步驟完成后,回到循環(huán)。本發(fā)明在加快參數(shù)優(yōu)化耗時的同時,可以有效減少資源消耗,并且可應(yīng)對多超參數(shù)的情況。
技術(shù)領(lǐng)域
本發(fā)明涉及一種優(yōu)化選取方法,尤其涉及一種深度學(xué)習(xí)中超參數(shù)的優(yōu)化選 取方法。
背景技術(shù)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,主要表現(xiàn)為 建立模型,并利用數(shù)據(jù)進(jìn)行學(xué)習(xí)。超參數(shù)是在開始學(xué)習(xí)過程之前設(shè)置值的模型 參數(shù),而不是通過訓(xùn)練得到的參數(shù)數(shù)據(jù)。超參數(shù)存在選取困難、沒有規(guī)律性的 特點,而且不同超參數(shù)之間存在無法預(yù)知的影響。超參數(shù)的選取直接影響機(jī)器 學(xué)習(xí)過程所耗費(fèi)的時間以及學(xué)習(xí)成果的好壞,網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu) 化都是常用的超參數(shù)選取策略。
對于網(wǎng)格搜索策略,雖然所消耗的時間較短,但是需要大量的并行計算, 占用龐大的計算資源,并且浪費(fèi)大量的計算力在不太可能得出最優(yōu)結(jié)果的訓(xùn)練 上;對于隨機(jī)搜索策略,其占用的資源最少,但是需要消耗大量的時間,在處 理復(fù)雜模型時甚至需要數(shù)天甚至數(shù)周的時間;對于貝葉斯優(yōu)化策略,每一次計 算都需要完成一次模型的訓(xùn)練過程,即每一步運(yùn)算都需要占用大量的時間和資 源,而即使是簡單的模型訓(xùn)練,貝葉斯優(yōu)化也需要相當(dāng)多的步數(shù)用于尋找最優(yōu) 模型。此外,上述方法在處理具有多個超參數(shù)的模型時,因無法考慮到各種超 參數(shù)之間的交互作用,所以很可能無法找到最優(yōu)的模型參數(shù)。
發(fā)明內(nèi)容
為了解決上述技術(shù)所存在的不足之處,本發(fā)明提供了一種深度學(xué)習(xí)中超參 數(shù)的優(yōu)化選取方法。
為了解決以上技術(shù)問題,本發(fā)明采用的技術(shù)方案是:一種深度學(xué)習(xí)中超參 數(shù)的優(yōu)化選取方法,其整體步驟為:
步驟1、定義n個待訓(xùn)練模型;每個訓(xùn)練模型設(shè)置為一種超參數(shù)h的配置組 合,利用并行計算,同時進(jìn)行模型訓(xùn)練;
步驟2、將模型訓(xùn)練過程中變化的模型參數(shù)記為θ;定義函數(shù)eval以當(dāng)前θ 的值來評估模型的優(yōu)劣,eval(θ)越大表示模型越好,則模型學(xué)習(xí)的過程理解 為求eval(θ|h)的最大值;
對每個并行計算的模型,隨機(jī)選取數(shù)個θ的值θ1、θ2...θm,計算得出相應(yīng)的 eval(θ1|h),eval(θ2|h)...eval(θm|h);其中(θ1,eval(θ1|h)) (θ2,eval(θ2|h))(θm,eval(θm|h))構(gòu)成的點稱為先驗點;假設(shè)這些點服從 多變量高斯分布;
步驟3、根據(jù)多變量高斯分布的性質(zhì),計算這些點中每一個點的均值和方 差,再通過最大化收獲函數(shù)來預(yù)估可能的使eval(θ|h)最大的θ取值;
步驟4、得到下一采樣點θt后,計算eval(θ|h);若此時eval(θ|h)滿足精度 要求則結(jié)束所有的模型訓(xùn)練,輸出此時的eval(θ|h)、θ、h;步驟3~4為一個循 環(huán),每進(jìn)行一次循環(huán)稱為該模型訓(xùn)練了一步,將訓(xùn)練步數(shù)記為step;
步驟5、如果此時的step數(shù)滿足預(yù)設(shè)條件則進(jìn)入步驟6,否則回到循環(huán)進(jìn)行 步驟3;若此時的step達(dá)到預(yù)設(shè)的上限,則直接結(jié)束所有訓(xùn)練,輸出所有模型 eval(θ|h)中最大的θ、h;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科弘云科技(北京)有限公司,未經(jīng)中科弘云科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810282510.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種加筋板結(jié)構(gòu)的優(yōu)化設(shè)計方法
- 參數(shù)優(yōu)化方法及參數(shù)優(yōu)化裝置
- 一種車輛TCU的參數(shù)優(yōu)化方法以及參數(shù)優(yōu)化系統(tǒng)
- 一種CMP模型參數(shù)優(yōu)化方法和裝置
- 刺激參數(shù)優(yōu)化
- 一種參數(shù)優(yōu)化調(diào)整方法及系統(tǒng)
- 用于抗擾動控制的交流伺服系統(tǒng)控制參數(shù)優(yōu)化方法
- 一種有級式自動變速器控制參數(shù)優(yōu)化方法
- 廣告點擊率預(yù)估模型的優(yōu)化方法和裝置
- 一種分布式水文模型參數(shù)優(yōu)化方法
- 產(chǎn)生獨立于瀏覽器的彈出窗口的開發(fā)工具
- 模板編譯方法
- 聯(lián)機(jī)分析處理服務(wù)器中多維查詢語句的解析方法和裝置
- 一種分布式系統(tǒng)中處理事務(wù)的方法、相關(guān)設(shè)備及系統(tǒng)
- 分析數(shù)據(jù)處理
- 一種報表系統(tǒng)自定義函數(shù)的實現(xiàn)方法
- 無上下文切換的搶占式操作系統(tǒng)
- 實現(xiàn)自主可控數(shù)據(jù)庫自定義函數(shù)加密的方法
- 函數(shù)圖像繪制方法、裝置、設(shè)備及計算機(jī)存儲介質(zhì)
- 底層接口調(diào)用鏈路的確定方法、裝置、計算機(jī)設(shè)備及介質(zhì)





