[發明專利]行為識別方法、裝置、終端設備和可讀存儲介質在審
| 申請號: | 202011560430.0 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112580557A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 林燦然;程駿;郭渺辰;邵池;龐建新 | 申請(專利權)人: | 深圳市優必選科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 梁韜 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為 識別 方法 裝置 終端設備 可讀 存儲 介質 | ||
本申請實施例提供一種行為識別方法、裝置、終端設備和可讀存儲介質,該方法包括:獲取目標視頻;按照自適應抽幀策略對目標視頻進行抽幀以獲得多個視頻幀,并將多個視頻幀進行組合以獲得若干數量的視頻片段;基于三維卷積模型提取每一視頻片段的特征向量,并基于注意力模塊計算每一特征向量的權重,對每一特征向量分別進行權重加權以獲得相同數量的加權特征向量;根據每一視頻片段的加權特征向量進行行為識別以獲得每一視頻片段的行為,并基于所有視頻片段的行為確定目標視頻的最終行為。本申請的技術方案基于自適應抽幀策略及注意力機制進行行為識別,可以提升行為識別的準確率等。
技術領域
本申請涉及圖像處理技術領域,尤其涉及一種行為識別方法、裝置、終端設備和可讀存儲介質。
背景技術
行為在人類日常生活中發揮著巨大的作用,通過識別人類的各種行為,可以為許多應用的落地提供重要的技術支持,如醫學場景下檢測病人行為是否規范來進行康復訓練;教育場景下識別老師和學生的行為來改善教學質量;視頻監控場景下檢測打架斗毆行為及時發現突發事件;商場通過預測顧客的行為來改變營銷策略等。
用于行為識別的模型的輸入為視頻,比傳統的二維圖像多了一個時序的維度,可以理解為一個視頻是由許多幀的圖像疊加而成。很多行為都是有強烈的時序信息,即先后順序,例如開門和關門,如果沒有時序信息,這兩個行為是極其相似的。
然而,對于時序的行為識別,傳統的方法普遍使用3D卷積,即在圖像識別任務中使用2D卷積的基礎上,增加一個維度,擴展到3D卷積。但是直接使用3D卷積會存在問題,3D卷積參數量較大,網絡訓練起來復雜,難以收斂,如果沒有輔助的信息幫助學習,3D卷積很難學習到時序維度上的關鍵信息來對行為進行準確的識別。
發明內容
有鑒于此,本申請的目的是為了克服現有技術中的不足,提供一種行為識別方法、裝置、終端設備和可讀存儲介質。
本申請的實施例提供一種行為識別方法,包括:
獲取目標視頻;
按照自適應抽幀策略對所述目標視頻進行抽幀以獲得多個視頻幀,并將所述多個視頻幀進行組合以獲得若干數量的視頻片段;
基于三維卷積模型提取每一所述視頻片段的特征向量,并基于注意力模塊計算每一所述特征向量的權重,對每一所述特征向量分別進行權重加權以獲得相同數量的加權特征向量;
根據每一所述視頻片段的所述加權特征向量進行行為識別以獲得每一所述視頻片段的行為,并基于所有視頻片段的所述行為確定所述目標視頻的最終行為。
在一種實施例中,所述自適應抽幀策略通過以下步驟預先獲取:
利用包含多個視頻樣本的訓練集進行視頻抽幀訓練,得到不同視頻的幀數與抽幀間隔之間的選取關系,所述選取關系如下:
其中,l表示抽幀間隔;Ti表示第i個視頻樣本的幀數,i取值為1,…,C,C為該訓練集中視頻樣本的數目;Ta表示該訓練集中所有視頻的平均幀數。
在一種實施例中,所述按照自適應抽幀策略對所述目標視頻進行抽幀以獲得多個視頻幀,包括:
判斷所述目標視頻的視頻類型,其中,所述視頻類型包括離線視頻和在線視頻;
若所述目標視頻為離線視頻,則根據所述目標視頻和基于所述訓練集得到的所述選取關系確定所述目標視頻的抽幀間隔;
若所述目標視頻為在線視頻,則將所述訓練集中占比最高的抽幀間隔作為所述目標視頻的抽幀間隔;
按照得到的所述抽幀間隔對所述目標視頻進行抽幀以獲得多個視頻幀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市優必選科技股份有限公司,未經深圳市優必選科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011560430.0/2.html,轉載請聲明來源鉆瓜專利網。





