[發明專利]一種人體行為識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011256262.6 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112418032A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 王亞飛;朱偉;陳濤;張飛 | 申請(專利權)人: | 北京城市系統工程研究中心;北京辰安科技股份有限公司;武漢瑞泰華軟件技術有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武漢藍寶石專利代理事務所(特殊普通合伙) 42242 | 代理人: | 高蘭 |
| 地址: | 100000 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人體 行為 識別 方法 裝置 電子設備 存儲 介質 | ||
本發明提供一種人體行為識別方法、裝置、電子設備及存儲介質,該方法包括:利用卷積神經網絡對視頻RGB幀提取最后一個卷積層的特征得到行為表觀特征,基于光流特征計算層對行為表觀特征迭代優化,得到光流特征,將多幀光流特征自適應聚合后,對光流特征與表觀特征進行融合,并基于注意力圖對表觀特征進行引導,得到運動信息增強的表觀特征,將運動信息增強的表觀特征與光流特征傳入分類融合層,并將分類器的預測分數融合得到行為預測結果,基于預測結果計算損失,對模型迭代更新得到收斂后的人體行為識別模型。通過該方案解決了現有行為識別方法無法準確表示行為動態信息的問題,可以提高人體行為識別的準確性,增強魯棒性,并保障實時性。
技術領域
本發明涉及計算機視覺領域,尤其涉及一種人體行為識別方法、裝置、電子設備及存儲介質。
背景技術
人體行為識別是一種通過分析視頻等數據,對人體行為進行識別分析的技術,其廣泛應用于智能監控、人機交互、行為預警、醫療健康等領域。
目前,已經公開的行為識別方法可以分為兩類:基于手工設計特征的方法和基于深度學習的方法。基于手工設計特征的方法常采用模板匹配方式,將運動圖像序列轉化為一個或一組靜態的模板,通過待識別樣本的模板與已知的模板進行匹配獲得識別結果。其主要方法包括:運動能量圖像(MEI)和運動歷史圖像(MHI),基于輪廓的平均運動形狀(MMS)和基于運動前景的平均運動能量(AME)等。基于深度學習的方法,一般通過卷積神經網絡提取每一幀的行為表觀特征,然后將多幀信息進行融合得到識別結果,如基于雙流卷積神經網絡,利用靜態支路從RGB視頻幀中提取行為的表觀特征,利用動態支路從視頻光流幀中提取動態信息,然后將兩個支路的行為預測進行融合,獲得分類結果。如將卷積神經網絡與長短期記憶網絡級聯起來,構成一個循環卷積結構。在每一步,卷積神經網絡提取每一幀的特征,然后送入到長短期記憶網絡建模行為的時序動態信息。如基于3D卷積神經網絡的方法直接采用3維的卷積核沿著視頻的時空維度進行卷積運算,獲得行為的時空信息。如ARTNet提出的SMART Block,基于二維卷積運算提取行為表觀特征,結合三維卷積運算提取行為的時序特征得到行為的時空信息。
一般,手工設計的特征算法受復雜背景影響較大,在有限的種類,受限的場景,小規模數據集上效果較好,但是不能處理大規模現實場景數據集,同時手工設計的特征具有較高的計算復雜度,不利于做到實時處理。而基于深度學習方法難以有效的捕捉到行為的動態信息,并且不能采用有效的方法引導卷積神經網絡提取到與行為相關的區域。同時,提取相應光流圖片的特征,需要的存儲空間大,獲取困難。
在已公開最為接近的現有技術中,Piergiovanni A和Ryoo M S提出的《Representation Flow for Action Recognition》中通過神經網絡提取RGB幀的卷積層特征、對行為特征迭代優化處理后得到光流特征,將光流特征輸入至分類器進行分類以識別人體行為,可以一定程度解決上述問題,然而在物體快速移動、遮擋、模糊等導致的動態特征復雜時,該方法識別結果的準確性會大幅下降。
發明內容
有鑒于此,本發明實施例提供了一種人體行為識別方法、裝置、電子設備及存儲介質,以解決現有識別方法在物體快速移動、遮擋或成像模糊等情況下,識別結果不準確的問題。
在本發明實施例的第一方面,提供了一種人體行為識別方法,包括:
獲取人體行為數據集后,通過卷積神經網絡對視頻RGB幀進行特征提取,將最后一個卷積層的特征作為人體行為表觀特征;
基于光流特征計算層對所述人體行為表觀特征進行迭代優化,得到包含有人體短期行為動態信息的光流特征;
將連續的多幀光流特征自適應聚合后,對光流特征與表觀特征進行融合,并基于注意力圖對表觀特征進行引導,得到運動信息增強的表觀特征;
將運動信息增強的表觀特征與光流特征傳入分類融合層,并將分類器的預測分數融合得到行為預測結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京城市系統工程研究中心;北京辰安科技股份有限公司;武漢瑞泰華軟件技術有限公司,未經北京城市系統工程研究中心;北京辰安科技股份有限公司;武漢瑞泰華軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011256262.6/2.html,轉載請聲明來源鉆瓜專利網。





