[發明專利]一種基于混合行為空間的強化學習方法在審
| 申請號: | 202010965008.7 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112183762A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 粟銳;張偉楠;俞勇 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 行為 空間 強化 學習方法 | ||
1.一種基于混合行為空間的強化學習方法,其特征在于,包括Actor網絡和Critic的網絡,所述Critic網絡用于計算所述Actor網絡的參數梯度,指導所述Actor網絡進行訓練。
2.如權利要求1所述的基于混合行為空間的強化學習方法,其特征在于,所述Actor網絡包括狀態編碼網絡、離散Actor網絡、連續參數Actor網絡,所述狀態編碼網絡對狀態進行編碼,輸入到所述離散Actor網絡和所述連續參數Actor網絡,所述離散Actor網絡用于產生離散動作,所述連續參數Actor網絡用于產生所述離散動作對應的連續化參數。
3.如權利要求2所述的基于混合行為空間的強化學習方法,其特征在于,包括如下步驟:
步驟1、定義狀態空間;
步驟2、定義通用的行為空間;
步驟3、將狀態輸入所述狀態編碼網絡,采樣得到隨機動作和連續化參數;
步驟4、將所述隨機動作和所述連續化參數作為行為給到環境,環境給出獎勵和下一個狀態;
步驟5、更新所述Actor網絡和所述Critic網絡。
4.如權利要求3所述的基于混合行為空間的強化學習方法,其特征在于,所述步驟1具體為:每一步的輸入為st,所述狀態編碼網絡的輸入維度是所述st的維度。
5.如權利要求4所述的基于混合行為空間的強化學習方法,其特征在于,所述步驟2具體為:離散行為從Ad={a1,a2,...,ak}中選出,對于每一個所述離散行為有一個可以用ma維實數向量表示的連續化參數最終給到環境的行為用一個元組(a,x)來表示,其中a∈Ad是選擇的離散動作,x∈χa是選擇的和動作a對應的連續化參數,整個行為空間定義為:
6.如權利要求5所述的基于混合行為空間的強化學習方法,其特征在于,所述步驟3具體為:每一步,將所述狀態st輸入到所述Actor網絡,所述離散動作根據所述狀態編碼網絡和所述離散Actor網絡對應的隨機離散策略采樣得到,所述連續化參數根據所述狀態編碼網絡和所述連續參數Actor網絡對應的隨機連續策略采樣得到。
7.如權利要求6所述的基于混合行為空間的強化學習方法,其特征在于,所述步驟4具體為:根據采樣得到的隨機動作at,得到對應的連續化參數的mask,進而得到離散動作at對應的連續參數把作為行為給到環境,環境給出獎勵和下一個狀態。
8.如權利要求7所述的基于混合行為空間的強化學習方法,其特征在于,所述步驟5具體為:每個episode結束后,根據整個episode的歷史記錄,更新所述Actor網絡和所述Critic網絡,所述Critic網絡用于評價所述Actor網絡執行動作的優劣。
9.如權利要求8所述的基于混合行為空間的強化學習方法,其特征在于,所述Critic網絡采用V值網絡,輸入為狀態s,輸出為狀態對應的價值V(s),使用時間差分法進行更新。
10.如權利要求9所述的基于混合行為空間的強化學習方法,其特征在于,所述Actor網絡使用隨機策略優化方法,使用所述Critic網絡給出的V值,計算優勢函數At=-V(st)+rt+γrt+1+…+γT-t-1rT-1+γT-1V(sT),優化策略,從而端對端的進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010965008.7/1.html,轉載請聲明來源鉆瓜專利網。





