[發明專利]基于長短期時域建模算法的輕量級視頻行為識別方法有效
| 申請號: | 202010124065.2 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111401149B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 王琦;李學龍;白思開 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06V20/40;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 短期 時域 建模 算法 輕量級 視頻 行為 識別 方法 | ||
1.一種基于長短期時域建模算法的輕量級視頻行為識別方法,其特征在于如下步驟:
步驟1:采用均勻采樣的方法從視頻數據集的每一個視頻中提取8幀視頻片段,并對提取的視頻片段進行多尺度裁剪,使其尺寸相同,所有裁剪后的視頻片段和其所屬視頻標簽共同構成新的視頻片段數據集,并將其按4:1的比例劃分為訓練數據集和測試數據集;
步驟2:構建長短期時域行為識別網絡模型,包括空間特征提取模塊、短期特征互換模塊、長期特征融合模塊和行為預測模塊;所述的空間特征提取模塊由50層的ResNet網絡構成,包含16個Bottleneck模塊,其中4個Bottleneck模塊含有下采樣層,ResNet網絡的第一個卷積層和不同Bottleneck模塊提取輸入視頻片段不同階段的空間特征,ResNet網絡的最后一層輸出每一幀相對于所有類別的得分;在每一個Bottleneck模塊前都插入一個短期特征互換模塊,將每一幀前1/8通道上的特征與前一幀互換,與之相鄰的1/8通道上的特征與后一幀互換,剩余的6/8通道的特征保持不變,并將互換后的特征與互換前的原始特征疊加,得到不同階段的短期時間特征;在最后兩個包含下采樣層的Bottleneck模塊前分別加入一個長期特征融合模塊,所述的長期特征融合模塊置于所插入的短期特征互換模塊之前,以輸入特征圖中提取的特征作為全連接圖的節點,采用圖卷積方法對節點上的信息進行融合,并通過映射使融合得到的長期時間特征與輸入特征圖保持結構相同;所述的行為預測模塊對特征提取模塊得到的所有幀的類別得分按照類別進行平均,得到視頻片段對于每一個類別的平均得分,并將得分最高的類別作為視頻片段的最終行為識別結果;
步驟3:將步驟1得到的訓練數據集輸入到步驟2構建的網絡模型中進行訓練,設定網絡的損失函數為均方誤差損失函數,采用隨機梯度下降法優化訓練網絡,批量大小為16,訓練的學習率為0.01,學習率每10個訓練輪回降低10倍,共訓練30個訓練輪回,訓練好的網絡即為最終的行為識別網絡模型;
步驟4:將測試數據集中的視頻輸入到步驟3訓練好的長短期時域行為識別網絡模型中,得到測試集中每個視頻的行為識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010124065.2/1.html,轉載請聲明來源鉆瓜專利網。





