[發明專利]基于多智能體深度強化學習的人群疏散仿真方法及系統在審
| 申請號: | 201910028487.7 | 申請日: | 2019-01-11 |
| 公開(公告)號: | CN109670270A | 公開(公告)日: | 2019-04-23 |
| 發明(設計)人: | 劉弘;鄭尚菲 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/50 | 分類號: | G06F17/50;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250358 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 疏散 多智能體 人群疏散 擁擠度 智能體 計數器 初始坐標 仿真場景 局部區域 路徑規劃 人數計算 梯度算法 面積和 子區域 確定性 出口 協同 場景 反饋 分組 回報 獎勵 創建 改進 規劃 政策 | ||
本公開公開了基于多智能體深度強化學習的人群疏散仿真方法及系統,根據人群疏散中個體的初始坐標和運動速度創建仿真場景;在疏散場景的每一個疏散出口處設置計數器,根據區域面積和人數計算出口的擁擠度,擁擠度是為在深度強化學習模型中訓練路徑時進行回報獎勵的反饋;根據每個個體距離各個子區域內房間出口的位置對全體個體進行分組,選取處于組內局部區域最前端的個體作為組內領導;利用多智能體深度確定性政策梯度算法MADDPG對領導進行路徑規劃,將多個領導看作是多個智能體,多個智能體之間相互協同進而選擇最佳疏散路徑,引領者根據深度強化學習規劃好的路徑進行疏散;在組內的各個成員在改進社會力下跟隨領導進行疏散活動。
技術領域
本發明涉及多智能體強化學習和計算機仿真技術領域,特別是涉及基于多智能體深度強化學習的人群疏散仿真方法及系統。
背景技術
本部分的陳述僅僅是提高了與本公開相關的背景技術,并不必然構成現有技術。
隨著城市化進程的不斷加快,城市內的建筑物以及人密度也在迅猛增加,隨之而來的是公共場所人員大量聚集,而在人員密集的公眾場所,由于人們對環境并不熟知,一旦發生突發事件,極易引起如人群擁堵、踩踏等惡性事件,如不能有效地疏散人群就往往會引發群死群傷等惡性事故。如何在突發事件發生時有效的進行災情控制和人群疏散,從而減免人員傷亡和財產損失是國內外都高度關注的難題。而通過計算機仿真技術來進行場景建模、路徑尋優以及人群運動行為建模,可以在達到最佳疏散演練效果的同時將成本最小化,因此,計算機仿真模擬成為研究突發事件下人群疏散的最主要方法。
隨著人工智能的發展,人們越來越意識到仿真模擬領域和強化學習的結合可以達到更好的效果?,F階段結合強化學習做路徑規劃的研究大多數將整個框架視為馬爾科夫博弈求解問題,仿真模型中的智能體像馬爾科夫決策規定的那樣,對整個環境開啟“上帝視角”,熟知環境,知道自己所處的位置,狀態,從而將環境看成是一個完全可觀察的。但是,在現實生活中,如果我們已知了環境信息(各個房間位置,出口位置,身處位置),那么我們對于每條通往出口的路徑都已經熟知,通過自我觀察以及經驗判斷,我們還是依據完全可觀察的環境信息選擇一個并不會太差的出口。相反,當我們身處在一個相對陌生的環境中,這時候沒有了以上的“上帝視角”,環境也相應變成部分可觀察的。也就是當我們進入某些并不熟悉的公眾場所時候,我們對于出口位置了解并不全面,對于自己的所處整個場所相對位置也并不明確。我們對于這種情形進行人群緊急疏散仿真訓練的需求相對來說是更加急迫的。
人群疏散仿真模型主要有兩種,宏觀模型和微觀模型。宏觀模型從整體出發,不考慮個體行為的局部細節信息。微觀模型從個體的角度考慮每個個體與環境的交互,可以彌補宏觀模型對行人細節描述的不足。社會力模型就是一種典型的微觀模型,社會力模型是Helbing 等人于1995年提出的一個新的行人流模型,在社會力模型中將行人運動描述為力作用的結果,行人運動由自身驅動力、個體間交互力、個體與環境間交互力共同驅動。其中,自身驅動力描述個體向目標運動的期望;個體間交互力反映個體對他人的心理排斥及物理排斥,使個體之間保持一定距離,實現行人運動的碰撞避免;個體與環境間交互力保證個體與障礙物間的安全距離,使行人運動過程中平滑的規避障礙物。
當然,僅利用原始社會力模型進行人群疏散仿真時效果往往并不理想,主要還存在以下問題:第一,大規模人群疏散中社會行為的真實特征應考慮到“群組”,“小團體”等由于心理因素和社會關系形成的人群聚集。第二,沒有明確的路徑規劃知識以至于發生擁堵不能很好的進行出口選擇,往往會導致出現出口擁擠的現象。第三,疏散效率仍有待提高。
值得注意的是,在過去15年中,隨著強化學習知識理論的不斷完善,強化學習領域已經成為一個逐漸成熟的領域。這期間一些優秀實用的框架理論相繼提出和應用,大大改進了強化學習原來的單智能體馬爾科夫決策過程。尤其是對于陌生的環境,多個智能體無法直接確定自己所處的狀態環境,必須根據模型的全域或者部分區域觀察結果來推斷狀態分布,從來進行溝通交流,進行模型知識的共享,從而使得多智能體更加高效的進行協同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910028487.7/2.html,轉載請聲明來源鉆瓜專利網。





