[發明專利]一種雙流神經網絡時序動作定位方法有效
| 申請號: | 201911044384.6 | 申請日: | 2019-10-30 |
| 公開(公告)號: | CN111027377B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 李平;曹佳晨;胡海洋;徐向華 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雙流 神經網絡 時序 動作 定位 方法 | ||
1.一種雙流神經網絡時序動作定位方法,其特征在于,該方法首先獲取視頻數據集,然后進行如下操作:
步驟(1).對視頻采樣處理,獲得視頻幀流圖像序列和視頻光流圖像序列;具體方法是:
(1-1).以每秒10~50幀的采樣率將視頻V處理為一個幀流圖像序列N表示幀流圖像數目,fi表示序列中第i幅寬為w、高為h的RGB三通道圖像;
(1-2).通過幀流圖像生成對應的水平方向與豎直方向的光流圖像序列N表示光流圖像數目,且與幀流圖像的數目相同,ofi表示序列中第i幅寬為w、高為h包含豎直方向和水平方向的光流雙通道圖像,且根據下標i與幀流圖像對應;
步驟(2).構建雙流神經網絡邊界分割模型,完整視頻的幀流以及光流圖像序列作為輸入,視頻動作的邊界信息作為輸出;具體方法是:
(2-1).參與模型構建的視頻包含動作片段標記信息,標記信息記為其中M表示不含背景片段的視頻V內動作片段數目,對于第j個動作片段,表示該片段動作開始幀,表示該片段動作結束幀,cj以數字表示該片段對應的動作種類,C表示視頻的動作種類數目;
雙流序列包括幀流圖像序列和光流圖像序列邊界分割模型采用每隔8幀選16幀作為候選邊界單元的策略;
(2-2).根據標記信息L獲得所有動作片段的開始幀和結束幀信息,若候選邊界單元內包含任意開始幀或結束幀,則定義其為邊界單元并將該單元標記為正例,否則標記為負例;
(2-3).使用淺層神經網絡結構作為雙流神經網絡邊界分割模型的骨干結構,為雙流序列提供兩個并行神經網絡結構A1與A2,采用Softmax層為輸出層并利用交叉熵損失函數;具體操作是:
①假定Softmax層的輸出概率為yb,其中表示Softmax層的輸入,e表示自然底數,y0表示為非邊界單元的概率,y1表示為邊界單元的概率;
②假定Softmax層的真實標記為則交叉熵損失函數為若該單元為邊界單元則否則
(2-4).將候選邊界單元的幀流圖像序列和光流圖像序列分別輸入雙流神經網絡邊界分割模型中的A1與A2,各自通過Softmax輸出層獲取該候選單元屬于邊界單元的概率,然后利用(2-2)的正負例單元標記信息計算交叉熵損失;
(2-5).利用隨機梯度下降算法優化訓練雙流神經網絡邊界分割模型,通過反向傳播分別對雙流神經網絡邊界分割模型內的A1和A2各層的參數并進行調整更新;
步驟(3).構建稀疏采樣動作識別模型,輸入為視頻片段的幀流以及光流圖像序列的稀疏采樣序列,輸出為視頻片段對各動作類別的概率;具體方法是:
(3-1).輸入的視頻片段是原始視頻根據標記信息中動作開始幀tstart和動作結束幀tend作為邊界分割而成的2M+1個片段,其中有M個動作片段,有M+1個背景片段,第j個動作片段的類別標記為cj,背景片段則均標記為0;
(3-2).對于每一個視頻片段S,其幀流圖像序列為光流圖像序列為其中P表示片段內的圖像數目;
(3-3).將片段S平均分割為α個子片段后,對每個子片段進行稀疏采樣,即隨機選擇子片段內的三個相差τ幀的幀流圖像序列和對應的光流圖像序列,每個片段共分別獲得α組幀流圖像序列和光流圖像序列;
(3-4).使用深層神經網絡結構作為稀疏采樣視頻動作識別模型的骨干結構,并為(3-2)中片段的雙流采樣序列提供兩個并行神經網絡結構A3與A4,均設置神經網絡Softmax層和利用交叉熵損失函數;具體操作是:
a.假定Softmax層獲得的視頻動作類別k的輸出概率為yk,其中C表示動作類別總數,表示Softmax層的輸入,e表示自然底數;
b.交叉熵損失函數的計算公式為其中表示視頻動作類別k的真實概率,若片段屬于類別k則為1,否則為0;
(3-5).將α組幀流圖像序列和光流圖像序列的采樣分別輸入(3-4)中的稀疏采樣視頻動作識別模型中的A3和A4,各自通過Softmax層獲取概率,然后利用片段的動作種類標記信息計算交叉熵損失;
(3-6).利用隨機梯度下降算法反向傳播分別對稀疏采樣視頻動作識別模型內的A3和A4各層的參數進行調整更新;
步驟(4).對新視頻根據邊界分割模型確定候選片段并用稀疏采樣動作識別模型判定候選片段動作類別,完成定位任務;具體方法是:
(4-1).以每秒10~50幀的采樣率將新視頻V'處理為一個幀流圖像序列通過幀流圖像生成對應的水平方向與豎直方向的光流圖像序列
(4-2).將幀流圖像序列和光流圖像序列輸入雙流神經網絡邊界分割模型,每隔8幀選16幀作為候選邊界單元,將單元內的幀流圖像序列和光流圖像序列分別輸入至分割模型內的A1與A2,分別得到二維向量輸出:和單元對應結果BR=Average(BR1,BR2),Average(·,·)表示取多個向量對應元素的平均值,表示單元屬于邊界單元與非邊界單元的概率;
(4-3).將屬于邊界單元概率大于閾值θ的單元設為邊界單元,得到M'個邊界單元并在所有邊界單元的二分之一處對視頻V'進行分割,獲得分割后的2M'+1個片段,并記錄每個片段的開始幀與結束幀
(4-4).將(4-3)得到的每個片段平均分割為α個子片段,再對每個子片段進行稀疏采樣,得到α組幀流圖像序列和光流圖像序列;
(4-5).將稀疏采樣得到的α組幀流圖像序列和光流圖像序列分別輸入至稀疏采樣視頻動作識別模型內的A3和A4,對應輸出α×(C+1)維矩陣:和其中C+1表示包含背景的動作類別數目,片段對應輸出C+1維向量;
RR=Average(Mean(RR3),Mean(RR4));
其中Average(·,·)取多個向量對應元素的平均值,Mean(·)取二維矩陣每一列的平均值,RR表示片段屬于各個動作類別的概率,對于每一個片段記錄其RR中概率最大的類別作為其動作識別結果c';
(4-6).對于動作識別結果c',若一個片段識別結果為非背景類,則結合(4-3)記錄的片段開始幀和結束幀,將其加入最終結果Result中;
(4-7).對于新視頻V',最終的時序動作定位結果表示為其中表示定位得到的動作片段總數,對于第j個片段,表示該片段在視頻中的開始幀,表示該片段在視頻中的結束幀,表示該片段的動作識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911044384.6/1.html,轉載請聲明來源鉆瓜專利網。





