[發明專利]基于分布式強化學習的無人機智能仿真訓練方法及裝置有效
| 申請號: | 202111136487.2 | 申請日: | 2021-09-27 |
| 公開(公告)號: | CN113886953B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 徐新海;李翔;張擁軍;李淵;劉遜韻 | 申請(專利權)人: | 中國人民解放軍軍事科學院國防科技創新研究院 |
| 主分類號: | G06F30/15 | 分類號: | G06F30/15;G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王宇楊 |
| 地址: | 100071 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 強化 學習 無人機 智能 仿真 訓練 方法 裝置 | ||
1.一種基于分布式強化學習的無人機智能仿真訓練方法,其特征在于,包括:
構建基于強化學習的無人機智能仿真訓練框架;所述無人機智能仿真訓練框架包括:N個普通學習者節點、M個行動者節點和一個參數服務器學習者節點,N≥2,M≥2;
在所述無人機智能仿真訓練框架下,無人機智能體基于以下步驟進行仿真訓練,包括:
步驟1,普通學習者節點從重放緩存中隨機或以預設優先級策略抽取無人機仿真經驗樣本數據,以及,向參數服務器學習者節點發送最新模型參數請求,以獲取所述強化學習神經網絡模型的最新模型參數;
步驟2,普通學習者節點根據所述無人機仿真經驗樣本數據和所述強化學習神經網絡模型的最新模型參數,確定所述強化學習神經網絡模型當前梯度;
步驟3,普通學習者節點將計算得到的強化學習神經網絡模型當前梯度發送至參數服務器學習者節點,以使所述參數服務器學習者節點在接收到所述強化學習神經網絡模型當前梯度后,根據該普通學習者節點最近一次獲取的強化學習神經網絡模型參數和參數服務器中的最新參數,對該普通學習者節點發送的強化學習神經網絡模型當前梯度進行補償,得到補償后的強化學習神經網絡模型梯度,并根據補償后的強化學習神經網絡模型梯度對強化學習神經網絡模型的模型參數進行更新;
步驟4,行動者節點以預設頻率從所述參數服務器學習者節點獲取所述強化學習神經網絡模型最新模型參數,以使根據最新的模型參數對應的代理算法控制仿真無人機在無人機智能仿真環境中進行交互,積累無人機仿真經驗樣本數據,并將所述無人機仿真經驗樣本數據發送至所述重放緩存中進行存儲;
步驟5,重復上述步驟1至步驟4,直至訓練時間滿足預設標準或無人機控制算法在仿真環境中體現出的智能化水平不再提升時,無人機智能仿真訓練結束。
2.根據權利要求1所述的基于分布式強化學習的無人機智能仿真訓練方法,其特征在于,所述無人機仿真經驗樣本數據包括:無人機仿真環境的當前狀態、決策動作、無人機仿真在所述當前狀態下執行所述決策動作所得到的獎勵值和后續狀態。
3.根據權利要求1所述的基于分布式強化學習的無人機智能仿真訓練方法,其特征在于,普通學習者節點根據所述無人機仿真經驗樣本數據和所述強化學習神經網絡模型的最新模型參數,確定所述強化學習神經網絡模型當前梯度,包括:
根據下面第一模型,確定各普通學習者的所述強化學習神經網絡模型當前梯度;其中,所述第一模型為:
其中,為第i個普通學習者所述強化學習神經網絡模型當前梯度,f為強化學習神經網絡函數,d為無人機仿真經驗樣本數據,wt為第i個普通學習者從參數服務器獲取的強化學習神經網絡模型的最新模型參數。
4.根據權利要求1所述的基于分布式強化學習的無人機智能仿真訓練方法,其特征在于,根據該普通學習者節點最近一次獲取的強化學習神經網絡模型參數和參數服務器中的最新參數,對該普通學習者節點發送的強化學習神經網絡模型當前梯度進行補償,得到補償后的強化學習神經網絡模型梯度,包括:
根據下面第二模型,對當前接收的普通學習者節點發送的強化學習神經網絡模型梯度進行滯后補償,得到補償后的強化學習神經網絡模型梯度;其中,所述第二模型為:
其中,為補償后的強化學習神經網絡模型梯度,為當前接收的強化學習神經網絡模型梯度,wt為所述強化學習神經網絡模型的最新模型參數,為普通學習者i最近一次獲取的強化學習神經網絡模型參數,為根據泰勒展開公式近似得到的梯度補償量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院國防科技創新研究院,未經中國人民解放軍軍事科學院國防科技創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111136487.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種匹配多種電壓平臺的電動汽車充電電驅系統
- 下一篇:一種云測試方法及裝置





