[發明專利]基于多Agent共享Q學習的疏散仿真方法及系統有效
| 申請號: | 201810982525.8 | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN109086550B | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 劉弘;段培永;韓延彬;李梁;陸佃杰;張桂娟;李焱;鄭向偉 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/50 | 分類號: | G06F17/50;G06Q10/04;G06Q50/26 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 疏散 群組 共享 知識庫 路徑規劃 人群疏散 上層空間 雙層控制 下層空間 公告板 場景 分組 關聯 學習 管理 人群 全局 出口 | ||
1.基于多Agent共享Q學習的疏散仿真方法,其特征是,包括:
步驟(1):從視頻中實時獲取環境信息及人群分布信息,搭建疏散仿真場景;設置用于人群疏散控制的雙層空間,上層空間,包括:管理Agent、導航Agent和知識庫,下層空間,包括:待疏散的行人;對人群分組,每組人群選出一個引領者,每組的引領者與對應的導航Agent連接,每個導航Agent均與管理Agent連接;
步驟(2):每個導航Agent引導對應的組進行疏散,同時每個導航Agent維護自身的Q表,還把實時獲取的信息上傳給管理Agent;
步驟(3):每個導航Agent根據管理Agent獲取的所有導航Agent上傳的Q表,按設定周期采用共享的Q學習算法進行學習,根據學習結果對導航Agent自身的Q表進行更新;每個導航Agent根據更新后的結果對路徑進行規劃,并將規劃的路徑發送給引領者,引領者根據導航Agent發送過來的信息,引領待疏散的行人進行疏散;
每個導航Agent引導對應的組進行疏散的具體步驟為:
步驟(201):根據視頻中已知的疏散路徑,初始化疏散軌跡集合;
步驟(202):依據疏散軌跡集合,建立疏散導航拓撲圖;所述疏散導航拓撲圖,包括:若干個疏散路徑,每一個疏散路徑上包括若干個導航點,兩個相鄰的導航點之間的疏散路徑稱為路段;所述導航點為障礙物或者出口;導航點與導航點之間的距離作為路段的權重;
步驟(203):先構造狀態集合,再構造行為集合,根據狀態集合和行為集合確定執行策略,根據反饋集合調整執行策略;計算累積加權獎賞的數學期望,根據最大期望值尋找最優路徑,最后利用最優路徑更新疏散路徑,執行疏散仿真;進入步驟(204);
步驟(204):判斷新得到的路徑是否比原有路徑獎懲值更高,如果比原有路徑獎懲值高,則采用新路徑,否則返回步驟(203);
步驟(205):沿新路徑繼續前行,更新位置;
步驟(206):判斷是否疏散完畢;如果是,則終止;否則采用新位置更新疏散軌跡集合;返回步驟(202);
所述步驟(203)的步驟為:
所述狀態集合,用S表示,包括:所有導航點位置和引領者當前位置;
所述行為集合,用A表示,包括:從引領者從當前時刻所處位置到下一個時刻所處導航點位置的選擇行為;
所述執行策略,用π表示,用于描述從行為集合中選擇某個導航點位置,進而更換位置的概率;
π(a|s)=P[At=a|st=s];
其中,π(a|s)表示在狀態s下選擇行為a的概率;At是在t時刻的動作,St是在t時刻的狀態,s是狀態集合S中的一個狀態,a是行為集合A中的一個行為;
所述反饋集合,包括:對每次所選擇的導航點的評估值rt:
rt=R(π(a|st),E);
其中,a表示選擇行為,st為t時刻引領者的位置,π(a|st)表示引領者在t時刻的位置處做出選擇行為a的概率;E表示獎賞標準;R(π(a|st),E)表示獎賞函數;
其中,獎賞標準E的計算公式為:
E=w1×Dis+w2×Den+w3×Tim+w4×Hea
其中:w1、w2、w3和w4是權重,初始值均為0.25;
Dis是進行歸一處理后的從當前位置到下一個導航目標點的路徑距離;
Den是進行歸一處理后的從當前位置到下一個導航目標點的路徑密度;
Tim是進行歸一處理后從知識庫中提取的歷史數據計算出來的預計到達時間;
歷史數據包括從導航點到導航點之間到達的時間及經過的人的次數;
預計到達時間是歷史到達時間的平均值;
Hea是進行歸一處理后從知識庫中提取的歷史數據計算出來的路徑熱度,即曾經選擇該路徑人數之和與選擇各路徑的人數之和的比值;
根據狀態集合、行為集合和反饋集合,計算累積加權獎賞的數學期望Vπ(s):
其中,γ∈[0,1]為折扣因子,rt為t時刻的獎賞,st為t時刻的狀態;Eπ表示執行選擇策略π的獎懲標準,rt+k表示t+k時刻的獎賞,st=s表示st是狀態集合S里的一個狀態;
對于任意策略π,t時刻在狀態st的值函數Vπ(st)表示為:
其中,P(st+1|st,at)表示位置轉移概率,Vπ(st+1)表示對于任意策略π,t+1時刻在位置st+1的值函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810982525.8/1.html,轉載請聲明來源鉆瓜專利網。





