[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法在審
| 申請?zhí)枺?/td> | 202310366576.9 | 申請日: | 2023-04-07 |
| 公開(公告)號: | CN116579231A | 公開(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計)人: | 蔣新成;高陽;霍靜;李文斌;楊光;解宇;韓東 | 申請(專利權(quán))人: | 南京大學(xué)深圳研究院;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/092 |
| 代理公司: | 南京泰普專利代理事務(wù)所(普通合伙) 32360 | 代理人: | 柯興宇 |
| 地址: | 518000 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 環(huán)境 建模 方法 | ||
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,旨在通過Model?basedRL技術(shù),將仿真環(huán)境進(jìn)行建模并存儲,旨在降低多智能體強(qiáng)化學(xué)習(xí)任務(wù)中的學(xué)習(xí)復(fù)雜度,進(jìn)而提升后續(xù)多智能體強(qiáng)化學(xué)習(xí)算法高效求解模塊的效率。包括仿真場景選擇功能,仿真環(huán)境建模功能,環(huán)境模型存儲功能。仿真場景選擇功能包括應(yīng)急管理、金融期貨、交通控制仿真場景選擇接入;仿真環(huán)境建模功能基于兩種模式,即人工輔助模式或智能模式來針對不同的情況對仿真環(huán)境建模;環(huán)境模型存儲功能將上述建模完畢的模型存儲到相應(yīng)的位置以供后續(xù)調(diào)用,以提升多智能體強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)效率。
技術(shù)領(lǐng)域
本發(fā)明涉及深度強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,提出了一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法。
背景技術(shù)
目前,強(qiáng)化學(xué)習(xí)技術(shù)在游戲、圍棋等任務(wù)中得到了廣泛應(yīng)用,并在一些復(fù)雜場景下取得了優(yōu)于人類的效果。研究人員試圖將強(qiáng)化學(xué)習(xí)技術(shù)推廣到更多的應(yīng)用場景下。將重點放在多步?jīng)Q策問題,傳統(tǒng)的識別、預(yù)測任務(wù)假設(shè)過去收集的訓(xùn)練數(shù)據(jù)和未來在應(yīng)用場景下測試的數(shù)據(jù)符合相同的分布。
然而,在多步?jīng)Q策強(qiáng)化學(xué)習(xí)問題中,在每一步做出決策時,智能系統(tǒng)將面臨的未來的狀態(tài)是不一樣的。強(qiáng)化學(xué)習(xí)需要收集一些數(shù)據(jù)(即探索),訓(xùn)練智能體做出較好的決策,而此時收集的數(shù)據(jù)可能與過去的數(shù)據(jù)存在一定的差異。為此,需要在決策環(huán)境中更好地進(jìn)行試錯和探索,從而找到更好的策略。
強(qiáng)化學(xué)習(xí)算法需要對環(huán)境進(jìn)行探索,通過試錯得到好的策略。然而,在真實場景下,有時試錯的成本會非常高,帶來嚴(yán)重的后果。例如,在嘗試控制鍋爐時,可能會引發(fā)爆炸。此外,時下興起的深度強(qiáng)化學(xué)習(xí)技術(shù)需要進(jìn)行數(shù)百萬次的試錯,計算量十分巨大。研究人員期望盡量降低試錯成本和次數(shù)的條件下,得到較好的決策。
對于通用性的場景,環(huán)境建模首先從數(shù)據(jù)中將環(huán)境還原出來,構(gòu)建類似于模擬仿真的環(huán)境,進(jìn)而在這個環(huán)境中學(xué)習(xí)如何做出決策。對于具體的應(yīng)用場景而言,可以針對性地設(shè)計仿真環(huán)境,然后在環(huán)境中進(jìn)行訓(xùn)練和驗證。環(huán)境建模避免了強(qiáng)化學(xué)習(xí)在真實場景下與環(huán)境的交互,降低了成本,有效提高了多智能體強(qiáng)化學(xué)習(xí)任務(wù)的學(xué)習(xí)效率。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)的環(huán)境建模方法,旨在通過強(qiáng)化學(xué)習(xí)技術(shù),環(huán)境建模算法,將目標(biāo)任務(wù)通過人工輔助模式或智能模式進(jìn)行建模存儲,以降低后續(xù)多智能體強(qiáng)化學(xué)習(xí)任務(wù)的學(xué)習(xí)復(fù)雜度,進(jìn)而提升多智能體強(qiáng)化學(xué)習(xí)算法高效求解模塊的效率。本發(fā)明提出的技術(shù)方案如下:
一種新的強(qiáng)化學(xué)習(xí)環(huán)境建模方法,所述方法包括如下步驟:
步驟1,仿真場景選擇功能,根據(jù)目標(biāo)任務(wù)的類型選擇仿真環(huán)境,包括應(yīng)急管理、金融期貨和交通控制;
步驟2,仿真環(huán)境建模功能,根據(jù)所述目標(biāo)任務(wù)的類型判斷是否存在專家先驗認(rèn)知,將所述目標(biāo)任務(wù)劃分到人工輔助模式或智能模式進(jìn)行處理,經(jīng)過處理最后均得到環(huán)境文件或環(huán)境模型產(chǎn)出;
步驟3,環(huán)境模型存儲功能,環(huán)境模型存儲庫存儲所有產(chǎn)出的環(huán)境模型文件,并有選擇的供后續(xù)多智能體強(qiáng)化學(xué)習(xí)任務(wù)調(diào)用學(xué)習(xí),以提升多智能體強(qiáng)化學(xué)習(xí)算法的高效學(xué)習(xí)。
優(yōu)選的是,所述步驟1中仿真環(huán)境的選擇具體為:
S1.1預(yù)設(shè)置的應(yīng)急管理環(huán)境,包括無人機(jī)設(shè)備在緊急事件發(fā)生前的預(yù)警,發(fā)生后的應(yīng)急處理;
S1.2預(yù)設(shè)置的金融期貨環(huán)境,包括金融市場環(huán)境建模,資產(chǎn)配置環(huán)境建模,設(shè)計期貨合約的多空交易;
S1.3預(yù)設(shè)置的交通控制環(huán)境,包括路口交通燈信號控制環(huán)境建模,對車輛行駛軌跡優(yōu)化,設(shè)計不同環(huán)境下的智能交通決策。
優(yōu)選的是,所述步驟2中劃分不同模式的具體步驟為:
S2.1判斷所述目標(biāo)任務(wù)的類型是否存在專家先驗認(rèn)知;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué)深圳研究院;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司,未經(jīng)南京大學(xué)深圳研究院;江蘇萬維艾斯網(wǎng)絡(luò)智能產(chǎn)業(yè)創(chuàng)新中心有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310366576.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





