[發明專利]基于多Agent共享Q學習的疏散仿真方法及系統有效

申請號：	201810982525.8	申請日：	2018-08-27
公開（公告）號：	CN109086550B	公開（公告）日：	2019-05-28
發明（設計）人：	劉弘;段培永;韓延彬;李梁;陸佃杰;張桂娟;李焱;鄭向偉	申請（專利權）人：	山東師范大學
主分類號：	G06F17/50	分類號：	G06F17/50;G06Q10/04;G06Q50/26
代理公司：	濟南圣達知識產權代理有限公司 37221	代理人：	黃海麗
地址：	250014 山***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	疏散群組共享知識庫路徑規劃人群疏散上層空間雙層控制下層空間公告板場景分組關聯學習管理人群全局出口
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于多Agent共享Q學習的疏散仿真方法，其特征是，包括：

步驟(1)：從視頻中實時獲取環境信息及人群分布信息，搭建疏散仿真場景；設置用于人群疏散控制的雙層空間，上層空間，包括：管理Agent、導航Agent和知識庫，下層空間，包括：待疏散的行人；對人群分組，每組人群選出一個引領者，每組的引領者與對應的導航Agent連接，每個導航Agent均與管理Agent連接；

步驟(2)：每個導航Agent引導對應的組進行疏散，同時每個導航Agent維護自身的Q表，還把實時獲取的信息上傳給管理Agent；

步驟(3)：每個導航Agent根據管理Agent獲取的所有導航Agent上傳的Q表，按設定周期采用共享的Q學習算法進行學習，根據學習結果對導航Agent自身的Q表進行更新；每個導航Agent根據更新后的結果對路徑進行規劃，并將規劃的路徑發送給引領者，引領者根據導航Agent發送過來的信息，引領待疏散的行人進行疏散；

每個導航Agent引導對應的組進行疏散的具體步驟為：

步驟(201)：根據視頻中已知的疏散路徑，初始化疏散軌跡集合；

步驟(202)：依據疏散軌跡集合，建立疏散導航拓撲圖；所述疏散導航拓撲圖，包括：若干個疏散路徑，每一個疏散路徑上包括若干個導航點，兩個相鄰的導航點之間的疏散路徑稱為路段；所述導航點為障礙物或者出口；導航點與導航點之間的距離作為路段的權重；

步驟(203)：先構造狀態集合，再構造行為集合，根據狀態集合和行為集合確定執行策略，根據反饋集合調整執行策略；計算累積加權獎賞的數學期望，根據最大期望值尋找最優路徑，最后利用最優路徑更新疏散路徑，執行疏散仿真；進入步驟(204)；

步驟(204)：判斷新得到的路徑是否比原有路徑獎懲值更高，如果比原有路徑獎懲值高，則采用新路徑，否則返回步驟(203)；

步驟(205):沿新路徑繼續前行，更新位置；

步驟(206)：判斷是否疏散完畢；如果是，則終止；否則采用新位置更新疏散軌跡集合；返回步驟(202)；

所述步驟(203)的步驟為：

所述狀態集合，用S表示，包括：所有導航點位置和引領者當前位置；

所述行為集合，用A表示，包括：從引領者從當前時刻所處位置到下一個時刻所處導航點位置的選擇行為；

所述執行策略，用π表示，用于描述從行為集合中選擇某個導航點位置，進而更換位置的概率；

π(a|s)＝P[A_t＝a|s_t＝s]；

其中，π(a|s)表示在狀態s下選擇行為a的概率；A_t是在t時刻的動作，S_t是在t時刻的狀態，s是狀態集合S中的一個狀態，a是行為集合A中的一個行為；

所述反饋集合，包括：對每次所選擇的導航點的評估值r_t：

r_t＝R(π(a|s_t)，E)；

其中，a表示選擇行為，s_t為t時刻引領者的位置，π(a|s_t)表示引領者在t時刻的位置處做出選擇行為a的概率；E表示獎賞標準；R(π(a|s_t)，E)表示獎賞函數；

其中，獎賞標準E的計算公式為：

E＝w1×Dis+w2×Den+w3×Tim+w4×Hea

其中：w1、w2、w3和w4是權重，初始值均為0.25；

Dis是進行歸一處理后的從當前位置到下一個導航目標點的路徑距離；

Den是進行歸一處理后的從當前位置到下一個導航目標點的路徑密度；

Tim是進行歸一處理后從知識庫中提取的歷史數據計算出來的預計到達時間；

歷史數據包括從導航點到導航點之間到達的時間及經過的人的次數；

預計到達時間是歷史到達時間的平均值；

Hea是進行歸一處理后從知識庫中提取的歷史數據計算出來的路徑熱度，即曾經選擇該路徑人數之和與選擇各路徑的人數之和的比值；

根據狀態集合、行為集合和反饋集合，計算累積加權獎賞的數學期望V_π(s)：

其中，γ∈[0,1]為折扣因子，r_t為t時刻的獎賞，s_t為t時刻的狀態；E_π表示執行選擇策略π的獎懲標準，r_t+k表示t+k時刻的獎賞，s_t＝s表示s_t是狀態集合S里的一個狀態；

對于任意策略π，t時刻在狀態s_t的值函數V_π(s_t)表示為：

其中，P(s_t+1|s_t，a_t)表示位置轉移概率，V_π(s_t+1)表示對于任意策略π，t+1時刻在位置s_t+1的值函數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于山東師范大學，未經山東師范大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810982525.8/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種焊接結構仿真系統及仿真方法
下一篇：一種適用于空冷供熱機組變工況的汽輪機最優滑壓曲線獲取方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】