[發明專利]一種基于深度學習的高精度多角度行為識別方法在審
| 申請號: | 202210103411.8 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114565970A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 莊旭菲;張潤秀;許志偉;王永生 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/74;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 010080 內蒙古自治區呼*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 高精度 角度 行為 識別 方法 | ||
1.一種基于深度學習的高精度多角度行為識別方法,其特征在于,包括:
步驟1,以攝像設備作為邊緣緩存節點,多臺攝像設備同一時段從同一高度不同的水平角度收集同一行為的原始視頻數據,并上傳至服務器,對原始視頻數據進行預處理,得到按時間順序的圖片幀;
步驟2,基于步驟1所得圖片幀,應用對比學習思想搭建用于動作分類的卷積神經網絡模型;
步驟3,使用訓練好的卷積神經網絡模型對預處理完的圖片幀進行動作分類得到并反饋行為識別結果。
2.根據權利要求1所述基于深度學習的高精度多角度行為識別方法,其特征在于,所述步驟1中原始視頻數據處理過程包括:首先,將視頻按時間順序切割成圖片幀;其次,對得到的圖片幀進行區別性命名;最后,將不同角度的圖片幀放在同一文件夾中,圖片幀的時序順序不變。
3.根據權利要求2所述基于深度學習的高精度多角度行為識別方法,其特征在于,所述將不同角度的圖片幀放在同一文件夾中是指:
以每個水平角度收集的原始視頻數據得到的圖片幀為一組,將每兩組圖片幀獨立地放在一個文件夾中,每個文件夾中的每組圖片幀中,圖片幀的時序順序不變。
4.根據權利要求1所述基于深度學習的高精度多角度行為識別方法,其特征在于,所述對比學習思想,是在歐氏空間中將正樣本距離拉近,將正樣本與負樣本距離拉遠,在視頻數據中,以同一時間不同角度的任意兩個圖片幀數據x1和x2為一對正樣本,經過神經網絡編碼后提取出一對特征表示對,分別最小化其負余弦相似性以達到拉近正樣本距離的目的。
5.根據權利要求4所述基于深度學習的高精度多角度行為識別方法,其特征在于,所述卷積神經網絡模型基于Siamese network孿生神經網絡框架進行搭建,包括輸入層、隱藏層和輸出層,所述輸入層的輸入為若干對所述的正樣本,所述隱藏層分別對所述一對正樣本進行編碼,處理后由輸出層輸出數據。
6.根據權利要求5所述基于深度學習的高精度多角度行為識別方法,其特征在于,所述隱藏層由編碼函數f(·)和編碼函數g(·)組成,編碼函數f(·)包括一個主干網絡和一個投影頭,每一對所述的正樣本在編碼函數f(·)編碼時共享權重,編碼函數g(·)作為預測頭;
編碼函數f(·)的編碼結果表示為:
編碼函數g(·)的編碼結果表示為:
其中,ω1和b1為編碼函數f(·)的訓練參數,ω2和b2為編碼函數g(·)的訓練參數。
7.根據權利要求5所述基于深度學習的高精度多角度行為識別方法,其特征在于,所述卷積神經網絡模型的損失L的計算過程:
最小化p1和z2的負余弦相似性:
最小化p2和z1的負余弦相似性:
D(p1,z2)為p1和z2間的歐式距離,D(p2,z1)為p2和z1間的歐式距離,||·||2是L2范數;
整體損失定義為:
其中stopgrad(·)為停止梯度操作;
最后利用深度神經網絡進行迭代訓練,得到使得損失函數最小的壓縮自動編碼器參數θ={w,b},其中b為偏置項,w為訓練參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210103411.8/1.html,轉載請聲明來源鉆瓜專利網。





