[發明專利]基于強化學習的多目標優化方法及系統在審
| 申請號: | 202111211621.0 | 申請日: | 2021-10-18 |
| 公開(公告)號: | CN113947018A | 公開(公告)日: | 2022-01-18 |
| 發明(設計)人: | 祝豪瑜;尹本順;陳智勇;宋利 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F111/06 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 多目標 優化 方法 系統 | ||
1.一種基于強化學習的多目標優化方法,其特征在于,包括如下步驟:
步驟S1:基于強化學習對多目標優化,獲得優化的帕累托前沿及對應的優化的帕累托解集;
步驟S2:根據需求應用優化的帕累托前沿與對應的優化的帕累托解集。
2.根據權利要求1所述的基于強化學習的多目標優化方法,其特征在于,所述步驟S1包括如下步驟:
步驟S1.1:根據多目標優化問題定義環境和智能體,且定義智能體在環境中的狀態、動作和獲得的目標的獎勵;
步驟S1.2:建立初始為空的緩存和初始為空的結果集合;
步驟S1.3:根據當前策略,將一個或若干個回合中智能體在環境中所經歷的狀態、所執行的動作和所獲得的目標的獎勵作為樣本存入緩存,并將每個回合的動作序列和每個目標的結果存入結果集合;
步驟S1.4:根據緩存中的樣本,針對多目標優化問題中的每個目標優化若干個子策略;
步驟S1.5:根據得到的優化的子策略和當前策略,綜合得到總策略;
步驟S1.6:清除緩存中的樣本,并將總策略作為下一次獲取樣本時智能體的當前策略;如果未達成訓練停止條件,則并回到步驟S1.3;
步驟S1.7:根據結果集合中的每個回合的結果作為一個結果點,進行非支配點排序,得到帕累托前沿及對應的帕累托解集。
3.根據權利要求2所述的基于強化學習的多目標優化方法,其特征在于,在所述步驟1.2中,輸入初始策略;
在第一次到達步驟S1.3時,當前策略為初始策略;在第二次和第二次以后到達步驟S1.3時,當前策略為得到的總策略。
4.根據權利要求2所述的基于強化學習的多目標優化方法及系統,其特征在于,在所述步驟1.2中,輸入子策略學習率和總策略學習率;
子策略學習率和總策略學習率在步驟S1.4和步驟S1.5中作為子策略和總策略的優化器中的迭代參數使用。
5.根據權利要求2所述的基于強化學習的多目標優化方法,其特征在于,在所述步驟1.3中,所執行的動作構成動作序列,每個目標對應的獎勵累加構成每個目標的結果。
6.根據權利要求2所述的基于強化學習的多目標優化方法,其特征在于,在所述步驟S1.4中,使用任何基于策略的強化學習中的優化算法,包括但不限于策略梯度和近端策略優化。
7.根據權利要求1所述的基于強化學習的多目標優化方法,其特征在于,在所述步驟S1.5中,總策略與子策略的差距及總策略與當前策略的差距的和,差距使用多種方式進行衡量。
8.根據權利要求1所述的基于強化學習的多目標優化方法,其特征在于,在所述步驟S1.6中,訓練停止條件包括但不限于訓練次數小于預定值和兩次訓練的差距小于門限。
9.一種基于強化學習的多目標優化系統,其特征在于,包括如下模塊:
模塊M1:基于強化學習對多目標優化,獲得優化的帕累托前沿及對應的優化的帕累托解集;
模塊M2:根據需求應用優化的帕累托前沿與對應的優化的帕累托解集。
10.根據權利要求9所述的基于強化學習的多目標優化系統,其特征在于,所述模塊M1包括如下模塊:
模塊M1.1:根據多目標優化問題定義環境和智能體,且定義智能體在環境中的狀態、動作和獲得的目標的獎勵;
模塊M1.2:建立初始為空的緩存和初始為空的結果集合;
模塊M1.3:根據當前策略,將一個或若干個回合中智能體在環境中所經歷的狀態、所執行的動作和所獲得的目標的獎勵作為樣本存入緩存,并將每個回合的動作序列和每個目標的結果存入結果集合;
模塊M1.4:根據緩存中的樣本,針對多目標優化問題中的每個目標優化若干個子策略;
模塊M1.5:根據得到的優化的子策略和當前策略,綜合得到總策略;
模塊M1.6:清除緩存中的樣本,并將總策略作為下一次獲取樣本時智能體的當前策略;如果未達成訓練停止條件,則并回到模塊M1.3;
模塊M1.7:根據結果集合中的每個回合的結果作為一個結果點,進行非支配點排序,得到帕累托前沿及對應的帕累托解集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111211621.0/1.html,轉載請聲明來源鉆瓜專利網。





