[發(fā)明專(zhuān)利]一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910380960.8 | 申請(qǐng)日: | 2019-05-08 |
| 公開(kāi)(公告)號(hào): | CN110245742A | 公開(kāi)(公告)日: | 2019-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 趙坤;張挺 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海電力學(xué)院 |
| 主分類(lèi)號(hào): | G06N3/04 | 分類(lèi)號(hào): | G06N3/04;G06K9/62;G06Q10/04;G06Q50/06 |
| 代理公司: | 上海科盛知識(shí)產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 葉敏華 |
| 地址: | 200090 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型優(yōu)化 樣本數(shù)據(jù) 預(yù)測(cè)模型 自適應(yīng) 參數(shù)調(diào)節(jié) 動(dòng)作選擇 全局最優(yōu) 網(wǎng)絡(luò)提供 相似結(jié)構(gòu) 預(yù)測(cè) 算法 調(diào)試 標(biāo)簽 網(wǎng)絡(luò) 場(chǎng)景 學(xué)習(xí) 優(yōu)化 決策 | ||
1.一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,該方法包括下列步驟:
1)對(duì)Q值網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,將動(dòng)作選擇與全局最優(yōu)決策分離;
2)利用Keras建立預(yù)測(cè)模型,并對(duì)模型進(jìn)行超參數(shù)調(diào)節(jié);
3)采用Q-Learning算法為深度Q網(wǎng)絡(luò)提供有標(biāo)簽的樣本數(shù)據(jù);
4)根據(jù)提供的樣本數(shù)據(jù)訓(xùn)練深度Q網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,步驟1)的具體內(nèi)容為:
在Q值網(wǎng)絡(luò)中采用兩套不同的用以選擇動(dòng)作的參數(shù)θ與θ-,其中,參數(shù)θ用以選出最大Q值的動(dòng)作,參數(shù)θ-則用以選出最優(yōu)Q值的動(dòng)作,兩套參數(shù)將動(dòng)作選擇與全局最優(yōu)決策分離,θ為將表格Q(s,a)用函數(shù)Q(s,a,θ)映射后的函數(shù)參數(shù)。
3.根據(jù)權(quán)利要求1所述的一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,步驟2)具體包括以下步驟:
21)利用Keras包裝深度學(xué)習(xí)模型的每一層神經(jīng)網(wǎng)絡(luò),并將包裝好的深度學(xué)習(xí)模型應(yīng)用到scikit-learn中作為預(yù)測(cè)模型;
22)預(yù)測(cè)模型建立后,通過(guò)DQN對(duì)超學(xué)習(xí)率進(jìn)行自適應(yīng)調(diào)節(jié)。
4.根據(jù)權(quán)利要求2所述的一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,步驟3)的具體內(nèi)容為:
采用Q-Learning算法計(jì)算目標(biāo)Q值,并將其與當(dāng)前動(dòng)作下的獎(jiǎng)勵(lì)結(jié)合作為標(biāo)簽,樣本數(shù)據(jù)的表達(dá)式為(si,ai,ri+1,si+1,label)j,其中i表示時(shí)間步為i,j表示e_greed為j,label為標(biāo)簽,e_greed為貪婪指數(shù),,i+1為下一步獎(jiǎng)勵(lì),si為當(dāng)前步狀態(tài),si+1為下一步狀態(tài),ai為當(dāng)前步動(dòng)作。
5.根據(jù)權(quán)利要求4所述的一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,步驟4)的具體內(nèi)容為:
采用經(jīng)驗(yàn)回放機(jī)制對(duì)深度Q網(wǎng)絡(luò)進(jìn)行訓(xùn)練,每一次對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新時(shí),從數(shù)據(jù)里隨機(jī)地調(diào)取小批量之前的訓(xùn)練結(jié)果,輔助培訓(xùn)神經(jīng)網(wǎng)絡(luò)。
6.根據(jù)權(quán)利要求5所述的一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,步驟4)中,深度Q網(wǎng)絡(luò)采用兩個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)用于存放當(dāng)前訓(xùn)練出來(lái)的Q值,另一個(gè)用于產(chǎn)生目標(biāo)Q值,訓(xùn)練過(guò)程中,在一定步數(shù)后將當(dāng)前Q值復(fù)制到目標(biāo)Q值網(wǎng)絡(luò)中。
7.根據(jù)權(quán)利要求6所述的一種基于Keras平臺(tái)的自適應(yīng)深度學(xué)習(xí)模型優(yōu)化方法,其特征在于,深度Q網(wǎng)絡(luò)進(jìn)行訓(xùn)練的損失函數(shù)為:
L(w)=E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]
式中,+γmaxQ(s′,a′,θ)為目標(biāo)Q值,r為獎(jiǎng)勵(lì),γ為折扣因子,Q(s,a,θ)為Q估計(jì)值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海電力學(xué)院,未經(jīng)上海電力學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910380960.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:多層神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化和應(yīng)用方法、裝置及存儲(chǔ)介質(zhì)
- 下一篇:一種異步分布式深度學(xué)習(xí)訓(xùn)練方法、裝置及系統(tǒng)
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 一種太陽(yáng)能聚焦集熱系統(tǒng)光-熱-流體耦合優(yōu)化設(shè)計(jì)方法
- 基于風(fēng)電預(yù)測(cè)與需求響應(yīng)的魯棒雙層優(yōu)化模型的求解方法
- 一種止推結(jié)構(gòu)的制作工藝
- 一種電-氣能源多目標(biāo)分布式交易協(xié)同優(yōu)化方法和裝置
- 一種主配網(wǎng)協(xié)調(diào)分布式潮流優(yōu)化方法及相關(guān)設(shè)備
- 一種模型的優(yōu)化方法、系統(tǒng)及服務(wù)器
- 模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及服務(wù)器
- 一種推薦系統(tǒng)的構(gòu)建方法及裝置
- 模型優(yōu)化推薦方法、裝置和計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種語(yǔ)言模型的優(yōu)化方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 生物樣本庫(kù)應(yīng)用管理系統(tǒng)
- 一種模型訓(xùn)練方法及裝置
- 一種評(píng)價(jià)尺度穩(wěn)定的數(shù)據(jù)標(biāo)記分配、統(tǒng)計(jì)的方法及系統(tǒng)
- 情報(bào)數(shù)據(jù)處理的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)融合方法及裝置
- 一種數(shù)據(jù)標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 樣本數(shù)據(jù)預(yù)測(cè)方法、裝置和計(jì)算機(jī)可讀介質(zhì)
- 分層抽樣方法、裝置和用于分層抽樣的裝置
- 數(shù)據(jù)樣本擴(kuò)充的方法、裝置和電子設(shè)備
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 一種基于方差最小的短期風(fēng)功率預(yù)測(cè)方法
- 模型自匹配融合健康預(yù)測(cè)方法
- 交通時(shí)間預(yù)測(cè)系統(tǒng)、交通時(shí)間預(yù)測(cè)方法以及交通模型建立方法
- 預(yù)測(cè)方法、訓(xùn)練方法、裝置、服務(wù)器及介質(zhì)
- 一種基于供電企業(yè)大數(shù)據(jù)模型庫(kù)的用電預(yù)測(cè)方法
- 信息預(yù)測(cè)方法和裝置
- 基于模型復(fù)用的模型預(yù)測(cè)方法、模型預(yù)測(cè)裝置及系統(tǒng)
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 考慮預(yù)測(cè)誤差的機(jī)柜設(shè)備發(fā)熱量超短期預(yù)測(cè)方法及系統(tǒng)
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無(wú)損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹(shù)木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





