[發(fā)明專利]用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法和訓(xùn)練裝置在審
| 申請?zhí)枺?/td> | 202210278558.0 | 申請日: | 2022-03-21 |
| 公開(公告)號: | CN114779631A | 公開(公告)日: | 2022-07-22 |
| 發(fā)明(設(shè)計)人: | 邢介邦;丁玉隆;崔金強;孫濤;宋偉偉 | 申請(專利權(quán))人: | 鵬城實驗室 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 深圳市君勝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44268 | 代理人: | 溫宏梅 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 形成 追捕 策略 強化 學(xué)習(xí) 模型 訓(xùn)練 方法 裝置 | ||
1.一種用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,包括:
將所有追捕者的信息、逃跑者的信息輸入到已訓(xùn)練的逃跑強化學(xué)習(xí)模型中,得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型輸出的針對逃跑者的逃跑控制量;
依據(jù)每個追捕者的信息、與每個所述追捕者相鄰追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每個所述追捕者的觀測信息;
將每個所述追捕者的觀測信息輸入到追捕強化學(xué)習(xí)模型中,得到所述追捕強化學(xué)習(xí)模型輸出的針對每個所述追捕者的追捕控制量;
根據(jù)所述追捕控制量,訓(xùn)練所述追捕強化學(xué)習(xí)模型,得到已訓(xùn)練的所述追捕強化學(xué)習(xí)模型。
2.如權(quán)利要求1所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述將所有追捕者的信息、逃跑者的信息輸入到已訓(xùn)練的逃跑強化學(xué)習(xí)模型中,得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型輸出的針對逃跑者的逃跑控制量,包括:
依據(jù)所有所述追捕者的信息,得到所有所述追捕者的信息中的追捕位置;
依據(jù)所述逃跑者的信息,得到所述逃跑者的信息中的逃跑位置和逃跑速度;
將每個所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度輸入到已訓(xùn)練的逃跑強化學(xué)習(xí)模型中,得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型輸出的針對逃跑者的逃跑控制量。
3.如權(quán)利要求1所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型的訓(xùn)練方式包括:
獲取所述逃跑者的逃跑樣本位置、所述逃跑者的逃跑樣本速度、所有所述追捕者的追捕樣本位置;
將所述逃跑樣本位置、所述逃跑樣本速度、所述追捕樣本位置輸入到所述逃跑強化學(xué)習(xí)模型,得到所述逃跑強化學(xué)習(xí)模型輸出的針對所述逃跑者的逃跑控制量;
通過所述逃跑控制量對所述逃跑強化學(xué)習(xí)模型進行訓(xùn)練,得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型。
4.如權(quán)利要求3所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述通過所述逃跑控制量對所述逃跑強化學(xué)習(xí)模型進行訓(xùn)練,得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型,包括:
依據(jù)所述逃跑強化學(xué)習(xí)模型,得到所述逃跑強化學(xué)習(xí)模型所涵蓋的逃跑者第一強化學(xué)習(xí)模型、逃跑者第二強化學(xué)習(xí)模型、逃跑者第三強化學(xué)習(xí)模型;
隨機選取所述逃跑者第一強化學(xué)習(xí)模型輸出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二強化學(xué)習(xí)模型輸出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三強化學(xué)習(xí)模型輸出的所述逃跑控制量中的逃跑第三控制量;
隨機從所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中選取一個控制量;
計算在隨機選取的一個控制量作用下,追捕過程中所述逃跑者與距離所述逃跑者最近的所述追捕者之間的追逃距離;
依據(jù)所述追逃距離對所述逃跑強化學(xué)習(xí)模型進行訓(xùn)練,得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型。
5.如權(quán)利要求1所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依據(jù)每個追捕者的信息、與每個所述追捕者相鄰追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每個所述追捕者的觀測信息,包括:
計算每個所述追捕者與障礙物之間的追障距離,所述障礙物為距離每個所述追捕者最近的障礙物;
依據(jù)每個所述追捕者的信息、與每個所述追捕者相鄰追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距離,得到每個所述追捕者的觀測信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鵬城實驗室,未經(jīng)鵬城實驗室許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210278558.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)





