[發明專利]一種基于運動軌跡的3D卷積神經網絡的行為識別方法有效
| 申請號: | 201810748903.6 | 申請日: | 2018-07-10 |
| 公開(公告)號: | CN109255284B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 趙凡;吉璐;藺廣逢;陳亞軍 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 杜娟 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 運動 軌跡 卷積 神經網絡 行為 識別 方法 | ||
本發明公開了一種基于運動軌跡的3D卷積神經網絡的行為識別方法,具體為:行為識別網絡模型訓練:建立行為識別數據集,訓練數據集和測試數據集;創建訓練標簽與測試標簽;雙向光流計算,獲取雙向運動軌跡;提取基于運動軌跡的像素值數據矩陣;建立基于運動軌跡的3D卷積神經網絡結構;對神經網絡結構進行訓練;行為識別網絡模型測試,計算準確率;若準確率大于等于95%,則認為訓練的基于運動軌跡的3D卷積神經網絡結構為最終的需求,若準確率小于95%,則需要調整基于運動軌跡的3D卷積神經網絡結構的內置參數后重新訓練。本發明的一種基于運動軌跡的3D卷積神經網絡的行為識別方法,提高視頻中人體行為的識別精度。
技術領域
本發明屬于圖像識別技術領域,具體涉及一種基于運動軌跡的3D卷積神經網絡的行為識別方法。
背景技術
人體行為識別是一個涉及計算機視覺和模式識別等領域的綜合性研究問題,近年來受到學者和研究人員越來越廣泛的重視。行為識別在智能監控、虛擬現實、視頻檢索、人機交互、客戶類型、購物行為分析等現實生活中有著廣泛的應用,但雜亂的背景、遮擋、光照和視點變化等因素都會影響行為識別的性能,因此開發先進的行為識別算法就有著迫切的需要。
傳統的行為識別方法主要由兩步組成,第一步是提取視頻圖像的特征,特征主要由人工特征和深度學習特征組成;第二步利用學習的分類器對特征進行分類。在真實場景中,不同的行為在外觀和運動模式上有明顯的不同,因此很難選擇合適的人工特征,而深度學習模型可以通過樣本學習特征從而具有比人工特征更好的優勢。基于深度學習行為識別技術主要分為3D卷積神經網絡與2D卷積神經網絡兩個方向。
2D卷積神經網絡不能很好的捕獲時序上的信息,而3D卷積神經網絡通過在卷積層進行3D卷積從而在視頻序列中提取在時間和空間維度都具有區分性的時空特征,但目前的3D卷積神經網絡忽視了視頻時間維和空間維的差異性,沒有考慮到行人的運動信息,因而在時間維度上還殘留更多的高頻信息,在網絡中難以形成行人的抽象化表示和特征的不變性。
發明內容
本發明的目的是提供一種基于運動軌跡的3D卷積神經網絡的行為識別方法,提高視頻中人體行為的識別精度。
本發明所采用的技術方案是,一種基于運動軌跡的3D卷積神經網絡的行為識別方法,具體按照以下步驟實施:
步驟一,行為識別網絡模型訓練,具體按照以下步驟實施:
步驟1,建立行為識別數據集,數據集包含N種行為類別,將第n種行為的視頻個數記為Vnumn,0≤n≤N-1,在第n種行為視頻中按順序抽取前Kn個視頻作為訓練視頻,Kn=round(3/4×Vnumn),把所有抽取的訓練視頻作為訓練數據集Vtrain,其中表示在訓練數據集中第n種行為類別下的第k個視頻,測試數據集表示測試數據集中第n種行為類別下的第s個視頻;
步驟2,創建訓練標簽Labeltrain與測試標簽Labeltest,在訓練數據集Vtrain中,第n種行為類別下的第k個視頻的視頻幀數為以互不重疊的連續16幀圖像為一個視頻段,提取的視頻段個數表示第n種行為類別下的第k個視頻的第m個視頻段;
訓練標簽Labeltrain的格式為:其中為視頻路徑VideoPath/Vtrainn下的視頻文件名(m-1)×16為每個視頻段起始幀號,n為行為類別編號;
在測試數據集Vtest中,第n種行為類別下的第s個視頻的視頻幀數為以互不重疊的連續16幀圖像為一個視頻段,提取的視頻段個數表示第n種行為類別下的第s個視頻的第w個視頻段;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810748903.6/2.html,轉載請聲明來源鉆瓜專利網。





