[發明專利]一種基于深度Q網絡改進的多目標進化算法在審
| 申請號: | 202310012540.0 | 申請日: | 2023-01-05 |
| 公開(公告)號: | CN116050514A | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 馮國瑞;周雨 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06N3/126 | 分類號: | G06N3/126;G06N3/045;G06N3/08;G06N3/006 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 網絡 改進 多目標 進化 算法 | ||
1.一種基于深度Q網絡改進的多目標進化算法,其特征在于,具體步驟如下:
1)設計深度Q網絡中的狀態空間s、動作空間a、獎勵模型r;
2)進化過程中訓練智能體,在每一個時間步驟上,智能體從動作空間中選擇一個動作,該動作被傳遞給種群。更新種群收斂性和多樣性的指標來描述狀態,同時計算相應的獎勵值,將經驗(st,at,rt,st+1)存儲到經驗池中;
3)從經驗池中獲取經驗進行學習,更新神經網絡參數,實現最優的選擇策略。
2.根據權利要求1所述的基于深度Q網絡改進的多目標進化算法,其特征在于,所述步驟1)的具體操作步驟為:
①、種群收斂性和多樣性的衡量指標用于表示種群的當前狀態s,進化過程中不同的種群狀態構成狀態空間;
②、候選個體集合映射為動作空間,候選集中的每個個體對應一個動作行為a;
③、通過種群的收斂性和多樣性來衡量種群的優劣,獲得對應的獎勵值r。
3.根據權利要求1所述的基于深度Q網絡改進的多目標進化算法,其特征在于,所述步驟2)中,使用ε-貪心進行動作的選擇,避免只選擇同一動作而無法變換;在每一個時間步驟中,有(1-ε)的概率按照Q函數來決定動作,有ε的概率隨機決定動作。ε會隨著時間遞減,在探索和利用之間尋求平衡,獲取合適的動作;智能體與環境按照某種策略進行交互時,這些歷史的狀態、動作、獎勵等可以作為經驗存儲到經驗池中,用于訓練神經網絡;在每一個時間步驟上,智能體從動作空間中選擇一個動作,更新種群收斂性和多樣性指標后,計算相應的獎勵值,將經驗(st,at,rt,st+1)存儲到經驗池中。
4.根據權利要求1所述的基于深度Q網絡改進的多目標進化算法,其特征在于,所述步驟3)中,使用某種規則從經驗池中隨機取出一條或多條經驗,采用批處理的模式來提高訓練的穩定性;原有的神經網絡稱為評估網絡,再搭建一個具有相同結構的神經網絡稱為目標網絡;在學習的過程中,只更新評估網絡的權重,保證更新權重時針對的目標不會在每次迭代都變化;在完成一定次數的更新后,目標網絡的權重更新為評估網絡的權重,使得目標網絡也得到更新;評估網絡和目標網絡的設計增加了學習的穩定性;通過智能體與環境進行交互,訓練評估網絡和目標網絡,學習最優的個體選擇策略,獲得具有較好收斂性和多樣性的最終種群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310012540.0/1.html,轉載請聲明來源鉆瓜專利網。





