[發明專利]一種前背景分離的人體動作在線檢測方法有效
| 申請號: | 202210532569.7 | 申請日: | 2022-05-10 |
| 公開(公告)號: | CN114926900B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 程建;夏子瀛;劉思宇;侯琴;吳雨恒 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06V10/774;G06N3/0464;G06N3/048;G06N3/08;G06N5/04 |
| 代理公司: | 成都先導云創知識產權代理事務所(普通合伙) 51321 | 代理人: | 李坤 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 背景 分離 人體 動作 在線 檢測 方法 | ||
1.一種前背景分離的人體動作在線檢測方法,其特征在于,包括以下步驟:
步驟1:采集包含人體動作的視頻數據,并對視頻數據中的人體動作標注動作起始時間、結束時間以及動作類別,得到原始視頻數據集;
步驟2:對原始視頻數據集按預定比例進行隨機劃分得到訓練集和測試集,并分別對原始視頻數據集中的數據進行預處理和構建訓練樣本;
步驟3:基于I3D(Inflated?3D?ConvNet)構建特征提取模塊,對原始視頻數據集中的數據進行特征提取,得到人體動作特征;
步驟4:構建基于多層感知機的特征映射模塊,并通過基于特征模長設計的對比損失對輸入特征序列中的前背景特征在特征空間中分離;
步驟5:構建維度與步驟4中的輸出維度相同的可學習前景記憶特征向量與基于互注意力的相似性度量模塊,得到與輸入特征序列對應的前背景類別概率向量;
步驟6:構建基于自注意力機制的時序推理器,利用步驟5中得到的前背景類別概率向量對輸入特征序列進行加權后,輸入時序推理器進行編碼,得到編碼序列特征;
步驟7:構建分類器,并將構建的分類器送入編碼序列特征得到人體動作在線檢測結果,并基于結果通過聯合損失函數對模型進行優化;
步驟3中所述的特征提取模塊,基于I3D網絡結構,由1個3D卷積模塊以及3個Inception模塊組成,對步驟2中輸出序列進行特征提取后分別得到維度為N的RGB特征向量以及光流特征向量,并將RGB特征向量以及光流特征向量級聯得到人體動作特征系列Xf;
步驟4中所述的多層感知機由兩層輸入輸出維度相等,且大小為N的線性層級聯而成,所述多層感知機的輸出為特征序列X′c;
步驟4中所述的基于特征模長設計的對比損失的表達式如下:
式中:M表示前背景特征模長分離閾值,與分別表示特征序列X′c中第i個前景特征第j個背景特征的2范數大小,A和B分別表示輸入特征序列中的前景特征與背景特征的數目;
所述步驟5包括以下步驟:
步驟5.1:使用線性層將輸入特征序列X′c映射為Xfb,維度大小為N;
步驟5.2:使用參數初始化方法構建長度為N的可學習前景記憶特征向量;
步驟5.3:使用矩陣乘法計算Xfb中各特征與前景記憶特征向量的相似性;
步驟5.4:基于相似性使用Sigmoid函數計算二分類前背景類別預測概率;
步驟5.5:基于前背景類別預測概率使用基于Focal?Loss二元交叉熵損失對特征映射模塊以及相似性度量模塊中的網絡進行優化;
所述步驟6包括以下步驟:
步驟6.1:通過一個全連接層將特征序列Xf映射至維度N得到X′f;根據前背景類別預測概率,設定激活閾值,再使用階躍函數得到二值序列;
步驟6.2:基于二值序列,使用殘差連接對X′f進行加權,得到待推理樣本;
步驟6.3:使用自注意力模塊與全連接層組成的時序編碼器對待推理樣本進行時序推理并進行編碼,得到編碼序列特征;
所述時序編碼器由一個自注意力層與一個全連接層組成,自注意力層和全連接層的輸入輸出均存在殘差連接;
步驟7中通過分類器得到在線動作預測概率后,將在線動作預測概率中概率最大的動作/背景類別作為動作在線檢測結果,使用交叉熵損失函數計算損失,其表達式為:
式中:pn,yn分別表示在線動作預測概率與真實動作標簽;
聯合損失函數為:
式中:α表示損失平衡系數;Lc為前背景分離對比損失;為二元交叉熵損失。
2.根據權利要求1所述的一種前背景分離的人體動作在線檢測方法,其特征在于,所述步驟2包括以下步驟:
步驟2.1:按照預定的比例將原始視頻數據集隨機劃分得到訓練集和測試集;
步驟2.2:將原始視頻數據集中的原始視頻以32FPS進行抽幀,得到RGB圖像幀序列;
步驟2.3:將RGB圖像幀序列的分辨率調整至256*256,并對訓練集中的視頻數據進行隨機裁剪得到分辨率為224*224的圖像,并以概率p進行隨機翻轉;并將測試集中的視頻數據的分辨率大小調整至224*224;
步驟2.4:對經過步驟2.3處理的RGB圖像幀序列采用TVL1算法計算光流圖像;
步驟2.5:將包含16幀RGB圖像和16幀光流圖像的16幀圖像構成一組視頻塊,作為動作特征提取的最小單元,以L個單元構成輸入的單個訓練樣本X=(x-L+1,...,x0)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210532569.7/1.html,轉載請聲明來源鉆瓜專利網。





