[發(fā)明專利]基于單幀圖像的多人并發(fā)交互行為理解方法在審
| 申請?zhí)枺?/td> | 202110259862.6 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN113158782A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設計)人: | 王振華;周瑾 | 申請(專利權)人: | 浙江工業(yè)大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖像 并發(fā) 交互 行為 理解 方法 | ||
一種基于單幀圖像的多人并發(fā)交互行為理解方法,包括以下步驟:1)輸入圖片,結合骨架估計和多目標跟蹤算法,獲得人體骨架數(shù)據和感興趣區(qū)域;2)使用人體骨架數(shù)據生成骨架部件置信度圖和部件親和力場,并構建注意力圖;3)定義基于人體骨架注意力的Resnet?Attention網絡;4)定義多人交互行為理解的雙流網絡;5)網絡參數(shù)訓練。所提算法利用注意力圖增強RGB圖像的卷積網絡特征,并基于人體骨架數(shù)據和移位圖卷積網絡提取雙人交互特征,從而實現(xiàn)對單幀圖像的多人交互行為建模,獲得有效的交互行為表征。本發(fā)明適用于單幀圖像中的多人并發(fā)交互理解。
技術領域
本發(fā)明屬于計算機視覺中的圖像理解領域,涉及多人交互理解方法。
背景技術
為建設新型智慧城市,保障民眾人身安全和減少財產損失,需完善公共場所相機的監(jiān)控功能,使其能基于視頻數(shù)據自動、精確地識別與理解監(jiān)控場景下的人群行為,并對關鍵事件進行計算機智能輔助分析和實時聯(lián)網預警。為實現(xiàn)多人交互理解,需要基于視頻或者圖像來自動識別人與人之間的交互關系及交互行為類別,如“拳擊”、“踢人”、“推人”、“扒竊”等。已有的技術存在兩個問題:第一個問題為模態(tài)失效,現(xiàn)有技術通常使用單模態(tài)信息,但單模態(tài)信息不足以理解復雜的人類交互動作;第二個問題為模態(tài)缺失,即交互場景中存在因人體遮擋而導致感興趣區(qū)域缺失的問題。
發(fā)明內容
為了克服已有技術的不足,本發(fā)明提供了一種基于單幀圖像的多人并發(fā)交互行為理解方法,有效識別多人場景中每兩個人之間的交互關系與交互行為類別。
本發(fā)明解決其技術問題所采用的技術方案是:
一種基于單幀圖像的多人并發(fā)交互行為理解方法,所述方法包括以下步驟:
1)輸入圖片,結合骨架估計和多目標跟蹤算法,獲得人體骨架數(shù)據和感興趣區(qū)域;
2)使用人體骨架數(shù)據生成骨架部件置信度圖和部件親和力場,構建注意力圖;
3)定義基于人體骨架注意力的Resnet-Attention網絡;
4)定義多人交互行為理解的雙流網絡
從多模態(tài)信息和注意力機制出發(fā),提出了一個雙流網絡模型,第一路算法是基于人體骨架注意力的Resnet-Attention網絡,提取增強的RGB特征;第二路算法基于骨架數(shù)據,使用當前行為識別效果最優(yōu)的移位圖卷積網絡,提取精確的骨架特征。
進一步,所述步驟1)中,感興趣區(qū)域指人體邊界框,精確計算感興趣區(qū)域是提取交互行為特征的基礎,結合骨架估計算法和多目標跟蹤算法計算感興趣區(qū)域,其中,使用AlphaPose從原始圖像中提取人體骨架并輸出人體邊界框,稱之為骨架人體框;同時,使用FairMOT對視頻中的人體進行跟蹤,從而獲得某一幀中每個人的人體邊界框,稱之為跟蹤人體框;骨架人體框的優(yōu)勢是其貼合實際人體程度較高,而跟蹤人體框易出現(xiàn)四肢在邊界框之外的情況;而對于存在嚴重遮擋或非正常人體位姿的復雜場景,人體骨架估計可能失敗,相比之下跟蹤人體框缺失情況更少。
進一步,獲取的人體骨架和人體框需要根據標注數(shù)據進行匹配,獲取有序的人體骨架數(shù)據和感興趣區(qū)域,有序數(shù)據包含:人體骨架、骨架人體框、跟蹤人體框、感興趣區(qū)域、交互組序號、交互組動作標簽和單人動作標簽,以下為計算的步驟:
1.1)利用AlphaPose算法提取人體骨架,并輸出骨架人體框;
1.2)利用FairMOT算法提取跟蹤人體框;
1.3)通過1.1)1.2)中獲得的骨架人體框、跟蹤人體框與標注數(shù)據計算邊界框的真實動作標簽與交互組序號,標注數(shù)據包含交互目標的人體框、交互組數(shù)據和動作標簽,將標注數(shù)據與跟蹤邊框匹配:對于任一跟蹤邊框B,計算與B交并比最大的標注邊界框Bmax,如果Bmax存在且對應的交并比大于0.5,則認為Bmax與B匹配,并將Bmax對應的動作標簽與交互組序號賦給跟蹤邊框B;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業(yè)大學,未經浙江工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110259862.6/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





