[發明專利]基于分布式強化學習的無人機智能仿真訓練方法及裝置有效
| 申請號: | 202111136487.2 | 申請日: | 2021-09-27 |
| 公開(公告)號: | CN113886953B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 徐新海;李翔;張擁軍;李淵;劉遜韻 | 申請(專利權)人: | 中國人民解放軍軍事科學院國防科技創新研究院 |
| 主分類號: | G06F30/15 | 分類號: | G06F30/15;G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王宇楊 |
| 地址: | 100071 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 強化 學習 無人機 智能 仿真 訓練 方法 裝置 | ||
本發明提供一種基于分布式強化學習的無人機智能仿真訓練方法及裝置,方法包括:構建基于強化學習的無人機智能仿真訓練框架;所述無人機智能仿真訓練框架包括:N個普通學習者節點、M個行動者節點和一個參數服務器學習者節點,N≥2,M≥2;在所述無人機智能仿真訓練框架下,對無人機智能體進行仿真訓練。本發明提供了一種多學習者與多行動者相結合的分布式訓練框架,在這種分布式訓練框架下,所有計算節點都無需相互等待,從而使得計算資源能夠最大限度地被調度起來,大大提升了無人機仿真智能訓練效率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于分布式強化學習的無人機智能仿真訓練方法及裝置。
背景技術
隨著無人機在各領域的應用場景不斷增多,提高無人機的自主化、智能化水平的迫切需求日益明顯。為提升無人機自主飛行的智能水平,使用計算機仿真技術為其搭建智能博弈仿真平臺是一個重要途徑。智能博弈仿真指在某個對抗博弈仿真系統中,智能算法通過運用規則腳本、行為決策樹、遺傳算法、強化學習等手段,控制仿真系統中的仿真實體與環境進行交互,并在仿真博弈對抗活動中對其決策行為的智能化程度進行測試。
目前,業界采用基于分布式強化學習的訓練框架對智能博弈仿真系統進行訓練,其構成要素主要包括行動者、學習者與樣本重放緩存,行動者負責代理與環境進行交互并收集經驗樣本數據,學習者則負責對樣本數據進行學習并更新強化學習模型。
然而,現有的分布式強化學習訓練框架采用的是基于同步梯度平均的參數更新策略。在這種策略下,需要等待所有學習者都完成神經網絡模型梯度計算才能開始執行模型更新,因此模型學習的效率將受制于最慢學習者節點。對于無人機智能仿真等復雜問題來說,這將大大限制訓練效率的提升。
發明內容
由于現有方法存在上述問題,本發明提供一種基于分布式強化學習的無人機智能仿真訓練方法及裝置。
本發明提供一種基于分布式強化學習的無人機智能仿真訓練方法,包括:
構建基于強化學習的無人機智能仿真訓練框架;所述無人機智能仿真訓練框架包括:N個普通學習者節點、M個行動者節點和一個參數服務器學習者節點,N≥2,M≥2;
在所述無人機智能仿真訓練框架下,無人機智能體基于以下步驟進行仿真訓練,包括:
步驟1,普通學習者節點從重放緩存中隨機或以預設優先級策略抽取無人機仿真經驗樣本數據,以及,向參數服務器學習者節點發送最新模型參數請求,以獲取所述強化學習神經網絡模型的最新模型參數;
步驟2,普通學習者節點根據所述無人機仿真經驗樣本數據和所述強化學習神經網絡模型的最新模型參數,確定所述強化學習神經網絡模型當前梯度;
步驟3,普通學習者節點將計算得到的強化學習神經網絡模型當前梯度發送至參數服務器學習者節點,以使所述參數服務器學習者節點在接收到所述強化學習神經網絡模型當前梯度后,根據該普通學習者節點最近一次獲取的強化學習神經網絡模型參數和參數服務器中的最新參數,對該普通學習者節點發送的強化學習神經網絡模型當前梯度進行補償,得到補償后的強化學習神經網絡模型梯度,并根據補償后的強化學習神經網絡模型梯度對強化學習神經網絡模型的模型參數進行更新;
步驟4,行動者節點以預設頻率從所述參數服務器學習者節點獲取所述強化學習神經網絡模型最新模型參數,以使根據最新的模型參數對應的代理算法控制仿真無人機在無人機智能仿真環境中進行交互,積累無人機仿真經驗樣本數據,并將所述無人機仿真經驗樣本數據發送至所述重放緩存中進行存儲;
步驟5,重復上述步驟1至步驟4,直至訓練時間滿足預設標準或無人機控制算法在仿真環境中體現出的智能化水平不再提升時,無人機智能仿真訓練結束。
可選的,所述無人機仿真經驗樣本數據包括:無人機仿真環境的當前狀態、決策動作、無人機仿真在所述當前狀態下執行所述決策動作所得到的獎勵值和后續狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院國防科技創新研究院,未經中國人民解放軍軍事科學院國防科技創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111136487.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種匹配多種電壓平臺的電動汽車充電電驅系統
- 下一篇:一種云測試方法及裝置





