[發(fā)明專利]基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110464589.0 | 申請(qǐng)日: | 2021-04-28 |
| 公開(公告)號(hào): | CN113282100A | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 俞揚(yáng);詹德川;周志華;郭天豪;管聰;龐竟成;羅凡明;張?jiān)铺?/a>;袁雷;陳雄輝 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué) |
| 主分類號(hào): | G05D1/10 | 分類號(hào): | G05D1/10;G06N20/20 |
| 代理公司: | 南京樂(lè)羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 無(wú)人機(jī) 對(duì)抗 博弈 訓(xùn)練 控制 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法包括如下步驟:
使主智能體與對(duì)手池中所有對(duì)手對(duì)戰(zhàn)并統(tǒng)計(jì)所述主智能體的勝率;
判斷所述主智能體的勝率是否滿足預(yù)設(shè)要求;
如果所述主智能體的勝率滿足預(yù)設(shè)要求,則根據(jù)所述主智能體的勝率選擇對(duì)抗對(duì)手;
使主智能體與所述對(duì)抗對(duì)手訓(xùn)練直至所述主智能體策略收斂。
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
初始化所述主智能體利用者;
使所述主智能體作為所述主智能體利用者的對(duì)手進(jìn)行對(duì)抗訓(xùn)練至所述主智能體利用者策略收斂。
3.根據(jù)權(quán)利要求2所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
將所述主智能體利用者加入對(duì)手池。
4.根據(jù)權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
對(duì)所述主智能體策略加擾動(dòng)因子。
5.根據(jù)權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
將加擾動(dòng)因子的策略加入對(duì)手池。
6.根據(jù)權(quán)利要求5所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
收集對(duì)抗數(shù)據(jù);
模仿學(xué)習(xí)獲得初始化策略;
構(gòu)建對(duì)手池。
7.根據(jù)權(quán)利要求6所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
初始化策略作為當(dāng)前策略;
以當(dāng)前策略與規(guī)則對(duì)對(duì)手進(jìn)行對(duì)抗訓(xùn)練。
8.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
每間隔時(shí)間T,將當(dāng)前策略加入對(duì)手池。
9.根據(jù)權(quán)利要求8所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
判斷當(dāng)前策略是否收斂,如果否,則轉(zhuǎn)回至以當(dāng)前策略與規(guī)則對(duì)對(duì)手進(jìn)行對(duì)抗訓(xùn)練。
10.根據(jù)權(quán)利要求9所述的基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法,其特征在于:
所述基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)對(duì)抗博弈訓(xùn)練控制方法還包括如下步驟:
判斷當(dāng)前策略是否收斂,如果是,則初始化所述智能體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110464589.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 無(wú)人機(jī)監(jiān)控方法、系統(tǒng)以及無(wú)人機(jī)和地面站
- 無(wú)人機(jī)拍攝方法及裝置、無(wú)人機(jī)和地面控制裝置
- 一種獨(dú)立式無(wú)人機(jī)飛行安全監(jiān)測(cè)與信息管理系統(tǒng)
- 一種確定無(wú)人機(jī)飛行路徑的方法及裝置
- 一種執(zhí)行任務(wù)時(shí)無(wú)人機(jī)群數(shù)據(jù)鏈真實(shí)性檢測(cè)方法
- 連發(fā)無(wú)人機(jī)電磁彈射系統(tǒng)及無(wú)人機(jī)機(jī)庫(kù)
- 用于無(wú)人機(jī)超視距管控的系統(tǒng)及其工作方法
- 連發(fā)無(wú)人機(jī)電磁彈射系統(tǒng)及無(wú)人機(jī)機(jī)庫(kù)
- 一種無(wú)人機(jī)遙感組網(wǎng)冗余容錯(cuò)控制方法
- 無(wú)人機(jī)的控制方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及無(wú)人機(jī)





