[發明專利]基于動態信息的人物交互行為識別方法有效
| 申請號: | 202011087925.6 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112149616B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 謝雪梅;張晨;李啟越;吳樹奇;石光明 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V10/82;G06N3/0464;G06N3/0442;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態 信息 人物 交互 行為 識別 方法 | ||
1.一種基于動態信息的人物交互行為識別方法,其特征在于,在生成人物交互訓練集時,標注視頻圖像第一幀中的人和物體所在區域,并利用siamrpn算法生成每張視頻圖像中所有幀的人所在區域位置和物體所在區域位置,構建人物交互行為識別網絡,對視頻圖像中的人物交互行為進行識別,該方法的步驟包括如下:
(1)生成人物交互訓練集:
(1a)選取至少3000張視頻圖像組成樣本集,每張視頻圖像中至少含有一種人物交互行為及與每種人物交互行為對應的類別標簽;
(1b)標注每張視頻圖像中第一幀的人和物體所在區域,利用siamrpn算法,分別生成每張視頻圖像中所有幀的人所在區域位置和物體所在區域位置;
(1c)用每張視頻圖像每一幀中的人和物體所在區域的并集生成2張二值圖像,第一張二值圖像中人所在區域的像素值為1,其余的像素值為0,在第二張二值圖像中物體所在區域的像素值為1,其余的像素值為0,將2張二值圖像的大小壓縮到64×64個像素;
(1d)將樣本集中所有的視頻圖像、所有幀的人所在區域位置、所有幀的物體所在區域位置和壓縮后的二值圖像組成人物交互訓練集;
(2)構建視覺特征提取模塊:
(2a)搭建一個10層的視覺特征提取模塊,其結構依次為:輸入卷積層→最大池化層→第一殘差塊組→第二殘差塊組→第三殘差塊組→第四殘差塊組→全局平均池化層→第一全連接層→concat層→第二全連接層;
所述第一殘差塊組包括3個串聯的殘差塊,每個殘差塊由三個卷積層串聯組成;
所述第二殘差塊組包括8個串聯的殘差塊,每個殘差塊由三個卷積層串聯組成;
所述第三殘差塊組包括36個串聯的殘差塊,每個殘差塊由三個卷積層串聯組成;
所述第四殘差塊組包括3個串聯的殘差塊,每個殘差塊由三個卷積層串聯組成;
(2b)設置每層參數為:將輸入卷積層的卷積核大小設置為7×7,卷積核數量設置為64,卷積核步長設置為2,第一至第四殘差塊組中殘差塊的卷積核步長均設置為1,每個殘差塊中對應位置的三個卷積核的大小均相同,依次為1×1、3×3、1×1,第一殘差塊組中殘差塊的三個卷積核數量依次設置為64、64、256,第二殘差塊組中殘差塊的三個卷積核數量依次設置為128、128、512,第三殘差塊組中殘差塊的三個卷積核數量依次設置為256、256、1024,第四殘差塊組中殘差塊的三個卷積核數量依次設置為512、512、2048,最大池化層的池化區域核大小設置為3×3,步長設置為2,第一、第二全連接層的輸出神經元個數分別設置為512、300,concat層的拼接維度設置為第1維;
(3)構建空間特征提取模塊:
(3a)搭建一個空間特征提取模塊,其結構依次為:第一卷積層→第二卷積層→全連接層;
(3b)設置每層參數為:將兩個卷積層的卷積核大小均設置為5×5,步長均設置為1,卷積核數量依次設置為64,32,全連接層的輸出神經元個數設置為128;
(4)構建時序特征提取模塊:
(4a)搭建一個時序特征提取模塊;其結構依次為:concat層→長短期記憶LSTM→全連接層→softmax激活層;
(4b)設置每層參數為:將concat層的拼接維度設置為第2維;長短期記憶LSTM由三個長短期記憶LSTM單元組成;利用參數設定公式,分別設定每個長短期記憶LSTM單元的輸入門、遺忘門、輸出門、細胞信息和隱藏信息結構參數;全連接層的輸出神經元個數設置為20;
(5)構建人物交互行為識別網絡:
將視覺特征提取模塊和空間特征提取模塊并聯后再與時序特征提取模塊串聯,組成人物交互行為識別網絡;
(6)訓練人物交互行為識別網絡:
將訓練集中的每張視頻圖像依次輸入到人物交互行為識別網絡中,利用梯度下降法更新迭代人物交互行為網絡的每層參數,直到梯度值收斂,得到訓練好的人物交互行為識別網絡;
(7)識別視頻圖像中的人物交互行為:
(7a)對待識別視頻圖像采用與步驟(1b)相同的方法,分別生成待視頻圖像中所有幀的人所在區域位置和物體所在區域位置;
(7b)對待視頻圖像采用與步驟(1c)相同的方法,生成對應的二值圖像;
(7c)將待識別視頻圖像、所有幀的人所在區域位置、所有幀的物體所在區域位置和二值圖像輸入到訓練好的人物交互行為識別網絡中,輸出人物交互行為識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011087925.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種CPE手套膜及其制備方法
- 下一篇:一種智慧社區生鮮配送服務系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





