[發明專利]一種基于中心點軌跡預測的視頻動作檢測方法有效
| 申請號: | 202010033743.4 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111259779B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 王利民;李奕萱;王子旭;武港山 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/82;G06N3/084 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 奚銘 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中心點 軌跡 預測 視頻 動作 檢測 方法 | ||
1.一種基于中心點軌跡預測的視頻動作檢測方法,其特征是在視頻時空動作檢測中,將每個動作實例視為動作發起者中心點移動的軌跡,一組運動序列的軌跡由中間幀動作的中心點和其他幀動作的中心點相對于中間幀中心點的運動矢量來表示,首先對視頻幀序列提取特征,得到中間幀的中心點位置預測及動作類別預測,然后得到中間幀的中心點到其他幀中心點運動軌跡,最后生成各幀中心點的檢測框,即得到位置定位,由此得到動作的類別和定位結果,完成視頻片段上的時空檢測任務;
首先將一組連續的視頻幀輸入到二維特征提取網絡進行特征提取,然后將提取的特征輸入三個分支進行進一步檢測,包括(1)中心點預測分支:用于檢測一組視頻序列的中間幀的動作實例的中心和類別;(2)位移預測分支:用于估計當前幀動作中心點相對于中間幀中心點的運動矢量;(3)檢測框回歸分支:用于單獨預測每幀視頻幀動作中心點處的包圍框大小;三個分支相互協作:通過中心點預測分支定位到中間幀運動者的中心點,然后根據位移預測分支估計運動者的移動,從而將中間幀中心點移動到其他幀形成一條中心點運動軌跡,并根據檢測框回歸分支在每幀的中心點生成檢測框,實現整個視頻的時空動作檢測;
具體通過神經網絡實現,包括生成訓練樣例階段、網絡配置階段、訓練階段以及測試階段:
1)生成訓練樣例階段:在視頻內取連續K幀做時空動作檢測,按時序遍歷整個視頻,選取在連續K幀內包含完整動作的視頻片段做為訓練樣本;
2)網絡配置階段,形成K幀視頻幀內每個動作實例的時空檢測結果:
2.1)特征提取網絡:使用二維特征提取網絡作為特征提取網絡,對輸入的視頻幀序列進行特征提取,步驟1)中的訓練樣本依次經過特征提取網絡得到通道數為T的圖像特征序列;
2.2)中心點預測分支:將步驟2.1)中得到的圖像特征序列沿著通道方向拼接起來,形成通道數為K*T的融合特征圖,將融合特征圖輸入到一個3*3的卷積層進行時空特征融合,融合后經過ReLu激活層,再通過一個1*1卷積層得到特征圖,經過Sigmoid激活層得到最終的熱圖,得出動作實例在中間幀的中心點位置和動作類別的預測結果;
2.3)位移預測分支:將步驟2.1)中得到的K幀圖像特征序列沿著通道方向拼接起來,形成通道數為K*T的融合特征圖,將融合特征圖輸入一個3*3的卷積層進行時空特征融合,再經過ReLu激活層,輸入一個1*1卷積層得到運動矢量估計,得到動作實例在每一幀相對于中間幀中心點的位移矢量估計,分別由x方向的位移和y方向的位移組成,經過步驟2.2)和2.3)形成連續K幀內動作實例中心點的運動軌跡;
2.4)檢測框回歸分支:將步驟2.1)中生成的K幀通道數為T的圖像特征序列依次逐幀輸入一個3*3的卷積層,經過ReLu激活層然后傳入一個1*1的卷積層,得到每一幀在運動實例中心點的檢測框;
3)訓練階段:使用Focal?Loss監督中心點預測分支,使用L1?Loss監督位移預測分支,使用L1?Loss監督檢測框回歸分支,三個損失函數按照設定的比例疊加,使用Adam優化器,通過反向傳播算法來更新網絡參數,不斷重復步驟2),直至達到迭代次數;
4)測試階段:將測試集中的視頻片段輸入網絡,經過步驟2)得到在整個視頻中的時空動作檢測結果。
2.根據權利要求1所述的一種基于中心點軌跡預測的視頻動作檢測方法,其特征是利用匹配算法將多組視頻幀連接起來,實現長時間視頻的時空動作檢測。
3.根據權利要求1所述的一種基于中心點軌跡預測的視頻動作檢測方法,其特征是還包括步驟2.5)后處理階段,利用匹配算法將多組連續K幀的視頻幀連接起來,實現長時間視頻的時空動作檢測。
4.根據權利要求1所述的一種基于中心點軌跡預測的視頻動作檢測方法,其特征是步驟1)中訓練樣本包括連續K幀的RGB和光流圖像,當輸入步驟2)網絡的模態為RGB的時候,將對應K幀的RGB圖片序列作為輸入記為IRGB,當輸入步驟2)網絡的模態為光流的時候,對于每一幀取從此幀開始連續5幀的光流,將K幀對應的光流序列作為輸入記為IFlow。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010033743.4/1.html,轉載請聲明來源鉆瓜專利網。





