[發(fā)明專利]用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法和訓(xùn)練裝置在審

申請?zhí)枺?/td>	202210278558.0	申請日：	2022-03-21
公開（公告）號：	CN114779631A	公開（公告）日：	2022-07-22
發(fā)明（設(shè)計）人：	邢介邦;丁玉隆;崔金強;孫濤;宋偉偉	申請（專利權(quán)）人：	鵬城實驗室
主分類號：	G05B13/04	分類號：	G05B13/04
代理公司：	深圳市君勝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44268	代理人：	溫宏梅
地址：	518000 廣***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于形成追捕策略強化學(xué)習(xí) 模型訓(xùn)練方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，包括：

將所有追捕者的信息、逃跑者的信息輸入到已訓(xùn)練的逃跑強化學(xué)習(xí)模型中，得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型輸出的針對逃跑者的逃跑控制量；

依據(jù)每個追捕者的信息、與每個所述追捕者相鄰追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每個所述追捕者的觀測信息；

將每個所述追捕者的觀測信息輸入到追捕強化學(xué)習(xí)模型中，得到所述追捕強化學(xué)習(xí)模型輸出的針對每個所述追捕者的追捕控制量；

根據(jù)所述追捕控制量，訓(xùn)練所述追捕強化學(xué)習(xí)模型，得到已訓(xùn)練的所述追捕強化學(xué)習(xí)模型。

2.如權(quán)利要求1所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述將所有追捕者的信息、逃跑者的信息輸入到已訓(xùn)練的逃跑強化學(xué)習(xí)模型中，得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型輸出的針對逃跑者的逃跑控制量，包括：

依據(jù)所有所述追捕者的信息，得到所有所述追捕者的信息中的追捕位置；

依據(jù)所述逃跑者的信息，得到所述逃跑者的信息中的逃跑位置和逃跑速度；

將每個所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度輸入到已訓(xùn)練的逃跑強化學(xué)習(xí)模型中，得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型輸出的針對逃跑者的逃跑控制量。

3.如權(quán)利要求1所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型的訓(xùn)練方式包括：

獲取所述逃跑者的逃跑樣本位置、所述逃跑者的逃跑樣本速度、所有所述追捕者的追捕樣本位置；

將所述逃跑樣本位置、所述逃跑樣本速度、所述追捕樣本位置輸入到所述逃跑強化學(xué)習(xí)模型，得到所述逃跑強化學(xué)習(xí)模型輸出的針對所述逃跑者的逃跑控制量；

通過所述逃跑控制量對所述逃跑強化學(xué)習(xí)模型進行訓(xùn)練，得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型。

4.如權(quán)利要求3所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述通過所述逃跑控制量對所述逃跑強化學(xué)習(xí)模型進行訓(xùn)練，得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型，包括：

依據(jù)所述逃跑強化學(xué)習(xí)模型，得到所述逃跑強化學(xué)習(xí)模型所涵蓋的逃跑者第一強化學(xué)習(xí)模型、逃跑者第二強化學(xué)習(xí)模型、逃跑者第三強化學(xué)習(xí)模型；

隨機選取所述逃跑者第一強化學(xué)習(xí)模型輸出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二強化學(xué)習(xí)模型輸出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三強化學(xué)習(xí)模型輸出的所述逃跑控制量中的逃跑第三控制量；

隨機從所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中選取一個控制量；

計算在隨機選取的一個控制量作用下，追捕過程中所述逃跑者與距離所述逃跑者最近的所述追捕者之間的追逃距離；

依據(jù)所述追逃距離對所述逃跑強化學(xué)習(xí)模型進行訓(xùn)練，得到已訓(xùn)練的所述逃跑強化學(xué)習(xí)模型。

5.如權(quán)利要求1所述的用于形成追捕策略的強化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述依據(jù)每個追捕者的信息、與每個所述追捕者相鄰追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每個所述追捕者的觀測信息，包括：

計算每個所述追捕者與障礙物之間的追障距離，所述障礙物為距離每個所述追捕者最近的障礙物；

依據(jù)每個所述追捕者的信息、與每個所述追捕者相鄰追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距離，得到每個所述追捕者的觀測信息。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鵬城實驗室，未經(jīng)鵬城實驗室許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210278558.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G05 控制；調(diào)節(jié)
G05B 一般的控制或調(diào)節(jié)系統(tǒng)；這種系統(tǒng)的功能單元；用于這種系統(tǒng)或單元的監(jiān)視或測試裝置
G05B13-00 自適應(yīng)控制系統(tǒng)，即系統(tǒng)按照一些預(yù)定的準則自動調(diào)整自己使之具有最佳性能的系統(tǒng)
G05B13-02 .電的
G05B13-04 ..包括使用模型或模擬器的

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】