[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的動態(tài)環(huán)境下人群疏散模擬方法有效
| 申請?zhí)枺?/td> | 202011351409.X | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112348285B | 公開(公告)日: | 2021-08-10 |
| 發(fā)明(設(shè)計)人: | 龔建華;申申;孫麇;李毅;殷兵曉;武棟 | 申請(專利權(quán))人: | 中國科學(xué)院空天信息創(chuàng)新研究院;浙江中科空間信息技術(shù)應(yīng)用研發(fā)中心 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/26;G06N3/08 |
| 代理公司: | 北京盛詢知識產(chǎn)權(quán)代理有限公司 11901 | 代理人: | 陳巍 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 動態(tài) 環(huán)境 人群 疏散 模擬 方法 | ||
本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的動態(tài)環(huán)境下人群疏散模擬方法,其中包括:人群作為多智能體系統(tǒng),對于單個行人智能體而言,采用深度神經(jīng)網(wǎng)絡(luò)來逼近狀態(tài)到動作的映射函數(shù),作為該智能體的行為控制器;行人智能體通過對動態(tài)環(huán)境狀態(tài)的觀察,利用該映射函數(shù)做出行為決策,并從動作空間中采取相應(yīng)的動作。在離散時間序列的疏散模擬過程中,一個策略指的是給定狀態(tài)下智能體動作在時間序列上的概率分布。環(huán)境對智能體的信息反饋體現(xiàn)為回報值。智能體的目標(biāo)是最大化累積回報值的期望,即尋找最優(yōu)動作值函數(shù),并得到最優(yōu)策略。通過本發(fā)明可以實現(xiàn)經(jīng)典人群模擬中難以實現(xiàn)的高動態(tài)環(huán)境下人群疏散模擬,模擬效果更加接近真實情況,人群行為的隨機(jī)性增強(qiáng)。
技術(shù)領(lǐng)域
本發(fā)明屬于人群模擬和計算機(jī)仿真技術(shù)領(lǐng)域,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的動態(tài)環(huán)境下人群疏散模擬方法。
背景技術(shù)
從人群疏散模擬的角度來看,目前常用的人群模擬模型可以分為宏觀模型和微觀模型。宏觀模型主要針對群體行為進(jìn)行建模,把群體看成是遵循流體力學(xué)定律的連續(xù)體,適用于大區(qū)域范圍內(nèi)大規(guī)模的人群模擬。微觀模型則以單一的個體作為建模的基礎(chǔ)單元,通過大量個體的運動以及個體之間的交互作用,涌現(xiàn)出群體行為。相比較之下,微觀模型更適合于個體行為的建模和模擬,得到了更多的研究。
每種模型都有自己的適用場景和局限性。Boids模型適用于鳥群、魚群等人工生命的模擬,用于人群模擬時需要加入更加復(fù)雜的規(guī)則或者結(jié)合社會力模型一起使用。元胞自動機(jī)模型基于離散的格網(wǎng)世界(Lattice Based Models),對于大場景來說,格網(wǎng)分辨率難確定,太粗則模擬失真,太細(xì)則影響計算效率。另外,它難以模擬異質(zhì)智能體,跟三維可視化系統(tǒng)結(jié)合也有難度。基于力的模型中智能體運動由動力學(xué)方程控制,模擬結(jié)果具有更弱的不確定性,難以表現(xiàn)人群疏散問題的復(fù)雜性。另外,研究人員需要為每一種行為定義規(guī)則,并建立動力學(xué)方程,建模難度較大。對于數(shù)據(jù)驅(qū)動的模型來說,模擬結(jié)果的真實程度很好,可信度也很高,但是獲取和解譯真實場景的視頻數(shù)據(jù)往往非常困難。
近年來,人工智能技術(shù)的迅速發(fā)展,使得AI驅(qū)動的人群模擬成為一種新方法。其中強(qiáng)化學(xué)習(xí)算法進(jìn)行人群模擬的研究逐漸增多。在經(jīng)典的人群模擬方法中,設(shè)計者需要自定義智能體的行為規(guī)則、建立動力學(xué)方程等等;然而強(qiáng)化學(xué)習(xí)算法賦予智能體學(xué)習(xí)的能力,展現(xiàn)出與前者完全不同的模式。在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境的交互不斷地學(xué)習(xí)自己的行為規(guī)則,即如何根據(jù)環(huán)境的各種狀態(tài)來選擇自己的行動,從而達(dá)到自己的目標(biāo)——最大化累積回報值。試錯搜索和延遲回報是強(qiáng)化學(xué)習(xí)最主要的兩點特征。環(huán)境的復(fù)雜性使得預(yù)先設(shè)計 agent行為很難甚至不可能,“硬編碼”的行為變得不合適。因此,強(qiáng)化學(xué)習(xí)適合于解決環(huán)境未知(Model-free)、環(huán)境動態(tài)變化的問題。社會力模型模擬出來的人群準(zhǔn)確度較低,隨機(jī)性較弱。
目前的人群疏散模擬研究多從微觀個體建模出發(fā),只考慮簡單的環(huán)境因素,例如邊界、障礙物等基本環(huán)境布局,對于高動態(tài)環(huán)境考慮甚少。但實際上,從環(huán)境行為學(xué)的角度來看,人不僅是環(huán)境中的一個客體,受環(huán)境影響,同時也能積極的改造環(huán)境。環(huán)境不僅僅是人群活動于其中的一個容器,它還是與人群行為模式不可分離的一部分。應(yīng)急狀態(tài)下的環(huán)境更是多變的、易變的,不僅僅是災(zāi)害過程的演進(jìn)會引起環(huán)境的變化,疏散過程中人群的擁擠、推移等行為也會改變環(huán)境。因此,應(yīng)急情況下的環(huán)境是時刻變化著的,人群行為與環(huán)境始終處于一個相互作用的過程中。高動態(tài)環(huán)境下人群疏散模擬,探索該情況下的人群行為規(guī)律,對現(xiàn)實的疏散具有指導(dǎo)意義。
傳統(tǒng)強(qiáng)化學(xué)習(xí)方法進(jìn)行人群模擬也遇到了很多挑戰(zhàn)。一方面,環(huán)境的狀態(tài)和智能體的移動均是連續(xù)的過程,即連續(xù)的狀態(tài)空間和動作空間,然而 Q-Learning、SARSA等算法僅支持離散的狀態(tài)空間和動作空間,龐大的連續(xù)空間可能導(dǎo)致維數(shù)災(zāi)難問題。另一方面,該類算法通常使用Q table作為狀態(tài)-動作的映射存儲體,在連續(xù)狀態(tài)空間和動作空間的情況中,需要巨大的存儲空間及索引時間,導(dǎo)致計算復(fù)雜度指數(shù)級的增加。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院空天信息創(chuàng)新研究院;浙江中科空間信息技術(shù)應(yīng)用研發(fā)中心,未經(jīng)中國科學(xué)院空天信息創(chuàng)新研究院;浙江中科空間信息技術(shù)應(yīng)用研發(fā)中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011351409.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





