[發(fā)明專利]一種基于多智能體強化學習的路徑規(guī)劃方法有效
| 申請?zhí)枺?/td> | 201811032979.5 | 申請日: | 2018-09-05 |
| 公開(公告)號: | CN109059931B | 公開(公告)日: | 2019-04-26 |
| 發(fā)明(設計)人: | 曹先彬;杜文博;李碧月;李宇萌;劉瑜 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20 |
| 代理公司: | 北京永創(chuàng)新實專利事務所 11121 | 代理人: | 冀學軍 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 全局狀態(tài) 強化學習 飛行器 多智能體 路徑規(guī)劃 算法 飛行器技術領域 全局路徑規(guī)劃 生存率 規(guī)則更新 局部規(guī)劃 空中飛行 內(nèi)層循環(huán) 起始狀態(tài) 任務完成 隨機選擇 外層循環(huán) 初始化 迭代 更新 收斂 | ||
1.一種基于多智能體強化學習的路徑規(guī)劃方法,其特征在于,具體步驟如下:
步驟一、建立空中飛行環(huán)境的全局狀態(tài)劃分模型;根據(jù)全局狀態(tài)劃分模型初始化全局狀態(tài)轉移表Q-Table1;同時設定回報機制建立全局回報矩陣R1;
步驟二、根據(jù)初始化的全局狀態(tài)轉移表Q-Table1,隨機選擇某行的全局狀態(tài),作為起始狀態(tài)s1;并設定外層循環(huán)的最大迭代次數(shù)N1;
步驟三、判斷起始狀態(tài)s1是否為目標點,如果是,進入步驟九;否則,進入步驟四;
步驟四、針對全局狀態(tài)轉移表Q-Table1,在當前狀態(tài)s1所有的列中,利用ε-greedy算法選擇某個列記為行為a1;
步驟五、利用選定的行為a1,在全局狀態(tài)轉移表Q-Table1中得到當前狀態(tài)s1的下一個狀態(tài)
行為a1所在的列數(shù)即為下一個狀態(tài)所在的行數(shù);
步驟六、利用Q-Learning算法的轉移規(guī)則更新全局狀態(tài)轉移表Q-Table1中,當前狀態(tài)s1以及行為a1所對應的具體元素值;
具體如下式所示:
其中Q(s1,a1)表示更新后全局狀態(tài)轉移表Q-Table1中狀態(tài)s1選擇行為a1所對應的元素值;R1(s1,a1)表示全局回報矩陣R1中,當前狀態(tài)s1采取行為a1對應的即時回報價值;γ1為全局智能體的折扣因子常數(shù),滿足0≤γ1<1;表示下一個狀態(tài)在全局狀態(tài)轉移表Q-Table1中所有可選行為中的最大元素值;表示下一個狀態(tài)所對應的行為;
步驟七、更新判斷s1是否為全局狀態(tài)中的目標點,如果是,進入步驟九;否則,進行步驟八;
步驟八、進入內(nèi)層循環(huán),采用Q-Learning算法得到更新后的狀態(tài)s1所對應的局部規(guī)劃路徑;
具體步驟為:
步驟801、更新后的狀態(tài)s1對應的是威脅源,將該威脅源及其周圍區(qū)域劃分為局部狀態(tài)網(wǎng)格,每一個網(wǎng)格對應一個局部狀態(tài);所有狀態(tài)網(wǎng)格構成要學習的局部狀態(tài)轉移表Q-Table2,同時建立局部回報矩陣R2;
步驟802、初始化局部狀態(tài)轉移表Q-Table2為零矩陣,隨機選擇某行網(wǎng)格中的局部狀態(tài),作為起始狀態(tài)s2;設定內(nèi)層循環(huán)的最大迭代次數(shù)N2;
步驟803、在當前狀態(tài)s2所有的列中,利用ε-greedy算法選擇某個列記為行為a2;
步驟804、利用選定的行為a2,在局部狀態(tài)轉移表Q-Table2中得到當前狀態(tài)s2的下一個狀態(tài)
行為a2所在的列數(shù)即為下一個狀態(tài)所在的行數(shù);
步驟805、利用Q-Learning算法更新局部狀態(tài)轉移表Q-Table2中,當前狀態(tài)s2以及行為a2所對應的具體元素值;
Q(s2,a2)表示更新后局部狀態(tài)轉移表Q-Table2中狀態(tài)s2選擇行為a2所對應的元素值;R2(s2,a2)表示局部回報矩陣R2中,當前狀態(tài)s2采取行為a2后的即時回報價值,γ2表示局部智能體的折扣因子常數(shù),滿足0≤γ2<1,表示下一個狀態(tài)在局部狀態(tài)轉移表Q-Table2中所有可選行為中的最大元素值,表示下一個狀態(tài)所對應的行為;
步驟806、更新返回步驟803,直至迭代次數(shù)達到N2完成內(nèi)層循環(huán),得到當前狀態(tài)s1所對應的局部規(guī)劃路徑;
根據(jù)網(wǎng)格中各個元素值,從起點開始,找出所有相鄰網(wǎng)格的最大元素值,將最大元素值所在的網(wǎng)格定為路徑的第一個網(wǎng)格,從該元素開始繼續(xù)找所有不重復的相鄰網(wǎng)格,選出最大元素值所在的網(wǎng)格定為路徑的第二個網(wǎng)格,依次類推,直到轉移到最后一個網(wǎng)格為終點網(wǎng)格,從起點到終點選中的所有轉移網(wǎng)格就是規(guī)劃出飛行器在空中的局部路徑;
步驟九、外層循環(huán)的迭代次數(shù)自增1,并判斷迭代次數(shù)是否達到N1,如果是,完成飛行器在空中的全局路徑規(guī)劃;否則,重新隨機選擇起始狀態(tài)s1并返回步驟三。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經(jīng)北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811032979.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 在構件編程中自動生成Singleton模式的方法
- 可重新開始地供應軟件組件的系統(tǒng)及方法
- 一種分布式事務管理方法及系統(tǒng)
- 一種高效分布式全局鎖協(xié)調(diào)方法
- 轉發(fā)表狀態(tài)切換方法、裝置及通信設備
- 數(shù)據(jù)讀取方法、裝置、計算機設備及存儲介質(zhì)
- 用于聯(lián)網(wǎng)微電網(wǎng)的安全分布式狀態(tài)估計
- 用于嵌套式微電網(wǎng)的分散式錯誤數(shù)據(jù)減輕
- 一種對vue進行狀態(tài)管理的方法、系統(tǒng)、設備及介質(zhì)
- 基于react項目的全局狀態(tài)數(shù)據(jù)管理方法及系統(tǒng)





