[發(fā)明專利]基于強(qiáng)化學(xué)習(xí)的多目標(biāo)優(yōu)化方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202111211621.0 | 申請(qǐng)日: | 2021-10-18 |
| 公開(公告)號(hào): | CN113947018A | 公開(公告)日: | 2022-01-18 |
| 發(fā)明(設(shè)計(jì))人: | 祝豪瑜;尹本順;陳智勇;宋利 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06F30/27 | 分類號(hào): | G06F30/27;G06F111/06 |
| 代理公司: | 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 多目標(biāo) 優(yōu)化 方法 系統(tǒng) | ||
本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)的多目標(biāo)優(yōu)化方法及系統(tǒng),包括如下步驟:步驟S1:基于強(qiáng)化學(xué)習(xí)對(duì)多目標(biāo)優(yōu)化,獲得優(yōu)化的帕累托前沿及對(duì)應(yīng)的優(yōu)化的帕累托解集;步驟S2:根據(jù)需求應(yīng)用優(yōu)化的帕累托前沿與對(duì)應(yīng)的優(yōu)化的帕累托解集。本發(fā)明基于強(qiáng)化學(xué)習(xí)技術(shù),將多目標(biāo)優(yōu)化問題中的每個(gè)目標(biāo)利用強(qiáng)化學(xué)習(xí)算法取得針對(duì)該目標(biāo)的子策略,并將所有子策略和當(dāng)前策略綜合得到新策略,經(jīng)過迭代可以獲得該多目標(biāo)優(yōu)化問題的更好的帕累托最優(yōu)前沿及對(duì)應(yīng)的帕累托最優(yōu)解集。
技術(shù)領(lǐng)域
本發(fā)明涉及多目標(biāo)優(yōu)化的技術(shù)領(lǐng)域,具體地,涉及一種基于強(qiáng)化學(xué)習(xí)的多目標(biāo)優(yōu)化方法及系統(tǒng)。
背景技術(shù)
隨著優(yōu)化技術(shù)的發(fā)展,大部分單目標(biāo)優(yōu)化問題都能被快速有效地解決。而隨著需求的變化,實(shí)際中的許多問題已經(jīng)從單目標(biāo)優(yōu)化問題轉(zhuǎn)化為多目標(biāo)優(yōu)化問題,并且目標(biāo)之間存在拮抗關(guān)系。傳統(tǒng)的單目標(biāo)優(yōu)化方法不能很好的解決多目標(biāo)優(yōu)化問題,因而大量多目標(biāo)優(yōu)化方法被提出。多目標(biāo)優(yōu)化方法的目的旨在獲取多目標(biāo)優(yōu)化問題的帕累托最優(yōu)前沿及對(duì)應(yīng)的帕累托最優(yōu)解集。
公開號(hào)為CN113033093A的中國(guó)發(fā)明專利文獻(xiàn)公開了一種基于仿真模型的系統(tǒng)設(shè)計(jì)參數(shù)多目標(biāo)優(yōu)化方法,首先,確定系統(tǒng)的多個(gè)優(yōu)化目標(biāo)和重要設(shè)計(jì)參數(shù),建立設(shè)計(jì)參數(shù)之間的數(shù)學(xué)模型;其次,根據(jù)系統(tǒng)結(jié)構(gòu)和工作原理,利用Mworks等仿真平臺(tái)搭建系統(tǒng)的仿真模型;然后,在設(shè)計(jì)參數(shù)的取值范圍內(nèi)進(jìn)行抽樣,模擬系統(tǒng)不同工況條件,將抽樣樣本輸入仿真模型中,計(jì)算出每組抽樣所對(duì)應(yīng)的系統(tǒng)設(shè)計(jì)目標(biāo)值,并構(gòu)建代理模型以擬合設(shè)計(jì)參數(shù)的抽樣樣本和對(duì)應(yīng)設(shè)計(jì)目標(biāo)值之間的函數(shù)關(guān)系;最后,基于代理模型利用多目標(biāo)算法尋找優(yōu)化數(shù)學(xué)模型的最優(yōu)解,獲得最優(yōu)設(shè)計(jì)參數(shù)方案。
針對(duì)上述中的相關(guān)技術(shù),發(fā)明人認(rèn)為上述方法不能很好的解決多目標(biāo)優(yōu)化問題,且無法綜合考慮多目標(biāo)優(yōu)化問題中的每個(gè)目標(biāo),較難獲取帕累托最優(yōu)前沿及對(duì)應(yīng)的帕累托最優(yōu)解集。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于強(qiáng)化學(xué)習(xí)的多目標(biāo)優(yōu)化方法及系統(tǒng)。
根據(jù)本發(fā)明提供的一種基于強(qiáng)化學(xué)習(xí)的多目標(biāo)優(yōu)化方法,包括如下步驟:
步驟S1:基于強(qiáng)化學(xué)習(xí)對(duì)多目標(biāo)優(yōu)化,獲得優(yōu)化的帕累托前沿及對(duì)應(yīng)的優(yōu)化的帕累托解集;
步驟S2:根據(jù)需求應(yīng)用優(yōu)化的帕累托前沿與對(duì)應(yīng)的優(yōu)化的帕累托解集。
優(yōu)選的,所述步驟S1包括如下步驟:
步驟S1.1:根據(jù)多目標(biāo)優(yōu)化問題定義環(huán)境和智能體,且定義智能體在環(huán)境中的狀態(tài)、動(dòng)作和獲得的目標(biāo)的獎(jiǎng)勵(lì);
步驟S1.2:建立初始為空的緩存和初始為空的結(jié)果集合;
步驟S1.3:根據(jù)當(dāng)前策略,將一個(gè)或若干個(gè)回合中智能體在環(huán)境中所經(jīng)歷的狀態(tài)、所執(zhí)行的動(dòng)作和所獲得的目標(biāo)的獎(jiǎng)勵(lì)作為樣本存入緩存,并將每個(gè)回合的動(dòng)作序列和每個(gè)目標(biāo)的結(jié)果存入結(jié)果集合;
步驟S1.4:根據(jù)緩存中的樣本,針對(duì)多目標(biāo)優(yōu)化問題中的每個(gè)目標(biāo)優(yōu)化若干個(gè)子策略;
步驟S1.5:根據(jù)得到的優(yōu)化的子策略和當(dāng)前策略,綜合得到總策略;
步驟S1.6:清除緩存中的樣本,并將總策略作為下一次獲取樣本時(shí)智能體的當(dāng)前策略;如果未達(dá)成訓(xùn)練停止條件,則并回到步驟S1.3;
步驟S1.7:根據(jù)結(jié)果集合中的每個(gè)回合的結(jié)果作為一個(gè)結(jié)果點(diǎn),進(jìn)行非支配點(diǎn)排序,得到帕累托前沿及對(duì)應(yīng)的帕累托解集。
優(yōu)選的,在所述步驟1.2中,輸入初始策略;
在第一次到達(dá)步驟S1.3時(shí),當(dāng)前策略為初始策略;在第二次和第二次以后到達(dá)步驟S1.3時(shí),當(dāng)前策略為得到的總策略。
優(yōu)選的,其特征在于,在所述步驟1.2中,輸入子策略學(xué)習(xí)率和總策略學(xué)習(xí)率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111211621.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 用于實(shí)現(xiàn)多目標(biāo)方業(yè)務(wù)或操作的方法和裝置
- 基于智能視頻分析平臺(tái)的多目標(biāo)跟蹤方法及其系統(tǒng)
- 多目標(biāo)設(shè)計(jì)選擇方法和系統(tǒng)
- 一種針對(duì)多目標(biāo)的地面導(dǎo)航系統(tǒng)及其方法
- 一種無斷點(diǎn)多目標(biāo)信號(hào)合成方法
- 基于多智能體深度增強(qiáng)學(xué)習(xí)的多目標(biāo)跟蹤方法
- 一種多目標(biāo)跟蹤方法
- 一種航空紅外視頻多目標(biāo)檢測(cè)與跟蹤方法及裝置
- 一種多目標(biāo)推薦方法、多目標(biāo)推薦模型生成方法以及裝置
- 一種區(qū)域多目標(biāo)衛(wèi)星探測(cè)仿真方法及系統(tǒng)





