[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310366576.9 | 申請(qǐng)日: | 2023-04-07 |
| 公開(公告)號(hào): | CN116579231A | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 蔣新成;高陽;霍靜;李文斌;楊光;解宇;韓東 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué)深圳研究院;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司 |
| 主分類號(hào): | G06F30/27 | 分類號(hào): | G06F30/27;G06N3/092 |
| 代理公司: | 南京泰普專利代理事務(wù)所(普通合伙) 32360 | 代理人: | 柯興宇 |
| 地址: | 518000 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 環(huán)境 建模 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,包括如下步驟:
步驟1,仿真場(chǎng)景選擇功能,根據(jù)目標(biāo)任務(wù)的類型選擇仿真環(huán)境,包括應(yīng)急管理、金融期貨和交通控制;
步驟2,仿真環(huán)境建模功能,根據(jù)所述目標(biāo)任務(wù)的類型判斷是否存在專家先驗(yàn)認(rèn)知,將所述目標(biāo)任務(wù)劃分到人工輔助模式或智能模式進(jìn)行處理,經(jīng)過處理最后均得到環(huán)境文件或環(huán)境模型產(chǎn)出;
步驟3,環(huán)境模型存儲(chǔ)功能,環(huán)境模型存儲(chǔ)庫存儲(chǔ)所有產(chǎn)出的環(huán)境模型文件,并有選擇的供后續(xù)多智能體強(qiáng)化學(xué)習(xí)任務(wù)調(diào)用學(xué)習(xí),以提升多智能體強(qiáng)化學(xué)習(xí)算法的高效學(xué)習(xí)。
2.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,所述步驟1中仿真環(huán)境的選擇具體為:
S1.1預(yù)設(shè)置的應(yīng)急管理環(huán)境,包括無人機(jī)設(shè)備在緊急事件發(fā)生前的預(yù)警,發(fā)生后的應(yīng)急處理;
S1.2預(yù)設(shè)置的金融期貨環(huán)境,包括金融市場(chǎng)環(huán)境建模,資產(chǎn)配置環(huán)境建模,設(shè)計(jì)期貨合約的多空交易;
S1.3預(yù)設(shè)置的交通控制環(huán)境,包括路口交通燈信號(hào)控制環(huán)境建模,對(duì)車輛行駛軌跡優(yōu)化,設(shè)計(jì)不同環(huán)境下的智能交通決策。
3.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,所述步驟2中劃分不同模式的具體步驟為:
S2.1判斷所述目標(biāo)任務(wù)的類型是否存在專家先驗(yàn)認(rèn)知;
S2.2若存在專家先驗(yàn)認(rèn)知,則通過人工輔助模式進(jìn)行環(huán)境建模,人為構(gòu)建多智能體目標(biāo)任務(wù),通過課程學(xué)習(xí)創(chuàng)建難度逐漸增加的源任務(wù)環(huán)境文件;
S2.3若目標(biāo)任務(wù)不存在專家先驗(yàn)認(rèn)知,則通過智能模式進(jìn)行環(huán)境建模,借助仿真環(huán)境建模模塊內(nèi)置算法庫來隱式約簡多智能體目標(biāo)任務(wù)或是學(xué)習(xí)環(huán)境模型。
4.根據(jù)權(quán)利要求1所述的一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,所述步驟3具體為:
S3.1環(huán)境模型存儲(chǔ)庫存儲(chǔ)了包括人工輔助模式中的可執(zhí)行的任務(wù)文件,智能模式中的交互檢測(cè)模型學(xué)習(xí)模塊與環(huán)境動(dòng)力學(xué)模型學(xué)習(xí)模塊;
S3.2環(huán)境模型存儲(chǔ)庫中的模型文件將被后續(xù)多智能體強(qiáng)化學(xué)習(xí)任務(wù)調(diào)用,提升多智能體強(qiáng)化學(xué)習(xí)算法的高效學(xué)習(xí)。
5.根據(jù)權(quán)利要求3所述的一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,所述步驟2中人工輔助模式下的執(zhí)行步驟為:
S2.1.1用戶根據(jù)環(huán)境父類文件編寫源任務(wù)環(huán)境文件,通過仿真環(huán)境可行性驗(yàn)證功能確定環(huán)境文件的可行性;
S2.1.2若可行,則在仿真環(huán)境生成頁面上傳到系統(tǒng)中;
S2.1.3若不可行,則需要重新修改并再次提交驗(yàn)證。
6.根據(jù)權(quán)利要求5所述的一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,所述步驟2中人工輔助模式下創(chuàng)建源任務(wù)環(huán)境文件的步驟如下:
S2.2.1根據(jù)需求定義源任務(wù);
S2.2.2設(shè)計(jì)任務(wù)集合,所述任務(wù)集合為若干與所述源任務(wù)相似但難度遞增的任務(wù);
S2.2.3使用基于仿真的方法來生成模擬數(shù)據(jù),需要記錄所述每個(gè)任務(wù)的難度級(jí)別和參數(shù);
S2.2.4構(gòu)建所述每個(gè)任務(wù)的環(huán)境文件,需要根據(jù)所述每個(gè)任務(wù)的難度級(jí)別逐步調(diào)整任務(wù)參數(shù)來逐步增加難度。
7.根據(jù)權(quán)利要求3所述的一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,其特征在于,所述步驟2中智能模式下的執(zhí)行步驟為:
S2.3.1調(diào)用仿真環(huán)境建模模塊的算法庫開展學(xué)習(xí),用戶選擇是否進(jìn)行信息交互檢測(cè);
S2.3.2選擇是,進(jìn)入交互檢測(cè)模型學(xué)習(xí)模塊,模塊內(nèi)置算法將與目標(biāo)任務(wù)場(chǎng)景交互適當(dāng)回合數(shù),開展多智能體間博弈結(jié)構(gòu)學(xué)習(xí);學(xué)習(xí)完成后,該模型自動(dòng)保存到系統(tǒng)中;
S2.3.3選擇否,進(jìn)入環(huán)境動(dòng)力學(xué)模型學(xué)習(xí)模塊,模塊內(nèi)置算法將與目標(biāo)任務(wù)場(chǎng)景交互適當(dāng)回合數(shù),開展環(huán)境智能模型學(xué)習(xí);學(xué)習(xí)完成后,該模型自動(dòng)保存到系統(tǒng)中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué)深圳研究院;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司,未經(jīng)南京大學(xué)深圳研究院;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310366576.9/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)





