[發明專利]一種采用視頻壓縮技術和骨架特征的輕量級行為識別方法有效
| 申請號: | 202010854984.5 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112001308B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 魏驍勇;張栩祿;左劼;楊震群;劉璐;張永旭 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06K9/62;G06N3/04;G06N3/08;H04N19/42;G06V20/40;G06V10/774 |
| 代理公司: | 成都正煜知識產權代理事務所(普通合伙) 51312 | 代理人: | 李龍 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 采用 視頻壓縮 技術 骨架 特征 輕量級 行為 識別 方法 | ||
本發明涉及由智能設備進行的行為識別方法,提供了一種采用視頻壓縮技術和骨架特征的輕量級行為識別方法,主旨在于解決采用深度學習方法造成的運行時間過長、硬件設施要求高的問題。主要方案包括,1)神經網絡模型預訓練;2)視頻壓縮;3)定長篩選視頻幀4)提取人體骨架關鍵點;5)圖像灰度化與骨架關鍵點增益;6)神經網絡模型微調,7)動作類別識別。同時得益于上述方法,單個視頻僅生成少量的圖像,使得可在經過通道維度上堆疊增益灰度圖,并通過輕量級的二維卷積神經網絡同樣能夠確保模型性能,而無需采用三維卷積長時間處理大量的視頻幀。
技術領域
本發明涉及由智能設備進行的行為識別方法,可用于實時識別視頻中出現的異常行為,屬于深度學習和行為識別技術領域。
背景技術
行為識別主要是指針對指定的視頻序列,判斷視頻中出現的行為,并給視頻分配一個預定義的類別標簽;該研究領域是視頻檢測、視頻語義分割等視頻智能分析的基礎,但視頻行為識別目前的性能明顯低于圖像分類任務。視頻行為識別中需要提取視頻的多種特征作為分類依據,按照使用特征的不同,可以大致分為基于手工特征的行為識別和基于深度學習的行為識別。基于手工特征的行為識別方法主要包括兩個部分,行為的表示和行為的分類。行為表示部分主要是將視頻轉換為一系列特征向量,然后根據特征向量去推斷一個動作標簽。基于深度學習的行為識別同時進行上述兩個部分,集成到一個端到端的框架當中,進一步提高了分類性能。
基于深度學習的視頻行為識別主要通過卷積運算對運動信息建模,產生了兩種類型的神經網絡結構,基于RGB空間信息和光流運動信息的雙流網絡,以及同時學習時間特征和空間特征的三維卷積網絡。雙流網絡需要對視頻預先提取光流特征,該特征耗時較長,而三維卷積由于參數量巨大,導致網絡優化和運行速度也還不夠理想。另一方面,利用RGB的空間信息并放棄時間特征的卷積神經網絡能夠實現實時運算,但嚴重依賴物體和場景信息,對背景噪聲敏感。
基于骨架的行為識別得到了越來越多的關注,其包含兩個關鍵的因素:每一幀的骨架表示和骨骼隨時間變化的表示。CNN模型具有出色的提取高級語義信息的能力,使用全連接層可以從所有輸入神經元聚合全局信息,并且已被用來從骨骼中學習時空特征。這些基于CNN的方法通過將骨架關節點和時間動態分別編碼為行和列,組成一個二維矩陣,然后將骨架序列的矩陣輸入CNN來識別基本動作。
發明內容
針對上述問題,本發明目的在于解決采用深度學習方法造成的運行時間過長、硬件設施要求高的問題。
為了解決上述技術問題,本發明采用以下技術方案:
一種采用視頻壓縮技術和骨架特征的輕量級行為識別方法,包括以下步驟:
步驟1:制作視頻數據集,每段視頻包含一個主要動作,并將該動作名稱作為視頻的標簽,主要用于神經網絡模型的訓練;
步驟2:對步驟1制作完成的視頻進行壓縮,由于連續幀之間通常具備很高的相似性,且部分幀存在由于動作導致的畫面模糊,提取具有代表性的幀作為有效幀,可以得到數量大幅減少的視頻幀,本發明采用FFmpeg工具提取視頻I幀作為有效幀,該幀提取過程十分快速且畫面清晰冗余較少,代表意義顯著;
步驟3:通常行為動作可分為短時動作和長時動作,對于短時動作,單張圖像可以做到較好的初始分類效果,而長時動作時間跨度長,需要長時間的視頻幀表示;為解決上述問題,本發明在步驟2的基礎上,對視頻幀進行固定時長的篩選,如每隔1秒的時間選定一幀作為該時間段內的代表性動作,在保證短時動作必定會被捕捉到的基礎上,長時動作包含的圖片數量適中,不會造成計算負擔和處理時間緩慢;
步驟4:采用開源的卷積神經網絡對步驟3獲得的視頻圖像提取骨架信息,獲得每張圖像上人體骨架關鍵點的位置,每個關鍵點對應了人體的某個身體位置,包括頭部、軀干、四肢的多個重要關節和部位,關鍵部位隨時間發生的位移和形變通常會直接代表了發生動作的類型,重點關注關鍵點和周圍區域,有利于提高模型的精準度,且該過程僅提取關鍵點位置,數據量極少,保證整個過程的處理速度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010854984.5/2.html,轉載請聲明來源鉆瓜專利網。





