[發(fā)明專利]基于多智能體深度強化學(xué)習(xí)的人群疏散仿真方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201910028487.7 | 申請日: | 2019-01-11 |
| 公開(公告)號: | CN109670270A | 公開(公告)日: | 2019-04-23 |
| 發(fā)明(設(shè)計)人: | 劉弘;鄭尚菲 | 申請(專利權(quán))人: | 山東師范大學(xué) |
| 主分類號: | G06F17/50 | 分類號: | G06F17/50;G06N3/08 |
| 代理公司: | 濟南圣達知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250358 山東省*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 強化學(xué)習(xí) 疏散 多智能體 人群疏散 擁擠度 智能體 計數(shù)器 初始坐標 仿真場景 局部區(qū)域 路徑規(guī)劃 人數(shù)計算 梯度算法 面積和 子區(qū)域 確定性 出口 協(xié)同 場景 反饋 分組 回報 獎勵 創(chuàng)建 改進 規(guī)劃 政策 | ||
1.基于多智能體深度強化學(xué)習(xí)的人群疏散仿真方法,其特征是,包括:
根據(jù)場景信息以及人群參數(shù)信息,進行疏散場景仿真模型內(nèi)的參數(shù)的初始化設(shè)置;
計算每個出口的擁擠度;
實現(xiàn)對全體個體進行分組;選取組內(nèi)領(lǐng)導(dǎo);
將每一個組內(nèi)領(lǐng)導(dǎo)視為一個智能體Agent,利用多智能體深度確定性策略梯度算法MADDPG進行路徑規(guī)劃,MADDPG算法中的評論員Critic依據(jù)每個出口的擁擠度對智能體的出口選擇給出對應(yīng)的回報獎勵;進而為每個智能體輸出最佳疏散路徑。
2.如權(quán)利要求1所述的方法,其特征是,從視頻中提取指定區(qū)域中的場景信息以及人群參數(shù)信息;所述場景信息,包括若干個子房間且每個子房間被視為一個子區(qū)域;每個子房間設(shè)有一個或多個出口,整個疏散場景設(shè)有一個或多個出口;從視頻中提取指定區(qū)域中的人群參數(shù)信息,是指:利用KLT追蹤算法從所述視頻中提取出人群疏散中個體的初始坐標和運動速度。
3.如權(quán)利要求1所述的方法,其特征是,
在每一個出口處設(shè)置計數(shù)器,用于統(tǒng)計每個出口疏散的人群個體數(shù),結(jié)合當(dāng)前出口的區(qū)域面積,計算每個出口的擁擠度;
將每個子房間內(nèi)成員劃為一組,如果某成員位于子房間外側(cè),則將該成員與距離該成員最近的子房間出口所對應(yīng)的子房間成員劃分為一組,實現(xiàn)對全體個體進行分組。
4.如權(quán)利要求1所述的方法,其特征是,針對每個分組中的所有個體,選取距離每個房間的出口最近的個體作為組內(nèi)領(lǐng)導(dǎo)。
5.如權(quán)利要求1所述的方法,其特征是,當(dāng)組內(nèi)領(lǐng)導(dǎo)移動到出口時,該組內(nèi)領(lǐng)導(dǎo)留在出口的位置不變,繼續(xù)領(lǐng)導(dǎo)組內(nèi)剩余組員的疏散,最后輸出各個組內(nèi)領(lǐng)導(dǎo)的疏散路徑。
6.如權(quán)利要求1所述的方法,其特征是,組員接受組內(nèi)領(lǐng)導(dǎo)的引領(lǐng),利用改進社會力模型計算組員與領(lǐng)導(dǎo)、組員與組內(nèi)其他組員、組員與其他組的組員以及組員與環(huán)境的受力,進行運動,直至疏散結(jié)束。
7.如權(quán)利要求1所述的方法,其特征是,利用多智能體深度確定性策略梯度算法MADDPG進行路徑規(guī)劃,依據(jù)每個出口的擁擠度對智能體的出口選擇給出對應(yīng)的回報獎勵,進而為每個智能體輸出最佳疏散路徑的具體步驟為:
將每一個組內(nèi)領(lǐng)導(dǎo)看成是一個智能體Agent;
設(shè)定智能體的可移動方向和當(dāng)前位置:將疏散場景劃分為網(wǎng)格,設(shè)定智能體的當(dāng)前位置為單個網(wǎng)格的位置坐標,用網(wǎng)格對角線交點的坐標表示;設(shè)定智能體的下一步的可移動方向,包括:上移、下移、左移或右移;
設(shè)置評論員Critic的獎懲機制,獎懲規(guī)則:各智能體與高擁擠度區(qū)域或障礙物大于設(shè)定定距離,若小于等于設(shè)定距離則給予的回報獎勵為負值Q;否則各個組內(nèi)領(lǐng)導(dǎo)從評論員Critic處得到的回報獎勵為正值Q;如果智能體最后找到整個疏散區(qū)域的最終出口,給予相應(yīng)的獎勵為正值Q’;
每個智能體Agent即對應(yīng)一個演員Actor網(wǎng)絡(luò),且一個演員Actor網(wǎng)絡(luò)對應(yīng)一個評論員Critic網(wǎng)絡(luò),設(shè)立單獨的經(jīng)驗池用于存儲各個Agent運動行為的狀態(tài)-行為對{當(dāng)前位置狀態(tài)s,當(dāng)前動作a,下一步位置狀態(tài)s_,回報R};
訓(xùn)練評論員Critic網(wǎng)絡(luò)和演員Actor網(wǎng)絡(luò)的模型參數(shù),使用N個回合重復(fù)訓(xùn)練步驟,以智能體Agent獲取的回報值最大為目標,直至訓(xùn)練出每個智能體的最短路徑。
8.基于多智能體深度強化學(xué)習(xí)的人群疏散仿真系統(tǒng),其特征是,包括:
初始化設(shè)置模塊,根據(jù)場景信息以及人群參數(shù)信息,進行疏散場景仿真模型內(nèi)的參數(shù)的初始化設(shè)置;
擁擠度計算模塊,計算每個出口的擁擠度;
組內(nèi)領(lǐng)導(dǎo)選取模塊,實現(xiàn)對全體個體進行分組;選取組內(nèi)領(lǐng)導(dǎo);
疏散仿真模塊,將每一個組內(nèi)領(lǐng)導(dǎo)視為一個智能體Agent,利用多智能體深度確定性策略梯度算法MADDPG進行路徑規(guī)劃,MADDPG算法中的評論員Critic依據(jù)每個出口的擁擠度對智能體的出口選擇給出對應(yīng)的回報獎勵;進而為每個智能體輸出最佳疏散路徑。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東師范大學(xué),未經(jīng)山東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910028487.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 學(xué)習(xí)裝置和學(xué)習(xí)方法
- 一種人工深度情感博弈強化學(xué)習(xí)的智能發(fā)電控制方法
- 用于強化學(xué)習(xí)的方法和設(shè)備
- 一種深度強化學(xué)習(xí)模型的組合方法、裝置及計算機設(shè)備
- 基于時空強化學(xué)習(xí)的跨模態(tài)視頻時刻定位方法
- 基于深度強化學(xué)習(xí)的寬帶無線通信自主選頻方法及系統(tǒng)
- 基于人工智能深度強化學(xué)習(xí)的航班艙位控制方法
- 面向深度強化學(xué)習(xí)對抗攻擊的模型增強防御方法
- 組件化的強化學(xué)習(xí)模型處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)
- 基于強化學(xué)習(xí)的智能決策方法及系統(tǒng)
- 一種軋機多智能體模型系統(tǒng)的信息交換方法
- 一種多智能體網(wǎng)絡(luò)的智能水平量化方法
- 一種基于模型的多智能體強化學(xué)習(xí)方法
- 一種基于人工勢場的多智能體集結(jié)點的智能規(guī)劃方法
- 異構(gòu)多智能體的協(xié)同控制方法和裝置
- 基于多智能體強化學(xué)習(xí)的信貸工廠訂單調(diào)度方法及裝置
- 一種具有多智能體的神經(jīng)網(wǎng)絡(luò)提升收斂和訓(xùn)練速度的方法
- 多智能體強化學(xué)習(xí)的決策方法及裝置
- 無人機集群智能系統(tǒng)控制方法
- 多智能體行為決策方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種基于多蜂群算法的人群疏散仿真方法及系統(tǒng)
- 一種基于折半DBSCAN聚類算法的人群分組疏散仿真方法及系統(tǒng)
- 基于禁忌搜索蜂群算法的人群疏散仿真方法及系統(tǒng)
- 一種基于Sarsa算法的人群疏散仿真方法及裝置
- 基于樹莓派的數(shù)據(jù)驅(qū)動智慧人群疏散系統(tǒng)及疏散方法
- 一種人群疏散仿真方法和裝置
- 一種基于狼群算法與擁擠檢測的人群仿真疏散方法及系統(tǒng)
- 基于貓群算法的人群疏散仿真方法、系統(tǒng)、介質(zhì)及設(shè)備
- 基于雞群算法和社會力模型的人群疏散仿真方法及系統(tǒng)
- 一種基于視域的人群分組及人群疏散仿真系統(tǒng)及方法





