[發明專利]一種基于邊界搜索智能體的時序動作片段分割方法有效
| 申請號: | 202010722304.4 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN111950393B | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 李平;曹佳晨;陳樂聰;徐向華 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 邊界 搜索 智能 時序 動作 片段 分割 方法 | ||
1.一種基于邊界搜索智能體的時序動作片段分割方法,其特征在于,該方法首先獲取視頻數據集合,然后進行如下操作:
步驟(1).對視頻采樣處理獲得視頻幀圖像序列,然后通過特征提取器獲得視頻幀單元編碼序列;具體是:
(1-1).對單個視頻V,以每秒25幀的采樣率處理為視頻幀圖像幀序列集合fi表示序列中第i幅寬為w高為h的RGB三通道圖像,N為視頻總幀數;
(1-2).將幀序列集合Vf劃分成N/nu個連續不重疊的視頻幀單元序列nu為一個單元包含的幀數,為向下取整函數,j為視頻幀單元的索引;其中,視頻V包含動作實例標記信息,標記信息記為M表示不含背景片段視頻動作實例數目,sm表示第m個動作片段動作開始單元索引,em表示第m個動作片段動作結束單元索引,cm表示第m個動作片段動作類別;
(1-3).采用訓練好的三維卷積神經網絡作為特征提取器φ,視頻幀單元序列經過特征提取器φ得到視頻幀單元編碼序列表示第j個幀單元的特征向量;
步驟(2).構建動作發現網絡,輸入為視頻幀單元編碼序列,輸出為視頻幀單元的類別預測向量序列,據此獲得動作單元;具體是:
(2-1).輸入視頻幀單元編碼序列U,通過多層全連接層構建動作發現網絡;
(2-2).根據視頻動作實例的標記信息得到視頻幀單元編碼序列U對應的單元類別標記序列其中cj∈{0,1,2,…,K}表示第j個幀單元對應的動作類別,K為動作類別總數,背景類別記為cj=0;
(2-3).采用Softmax層為輸出層且交叉熵為損失函數,輸出為視頻幀單元的類別預測向量序列其中假定第j個幀單元對應動作類別k的輸出概率為Softmax層的計算式為表示Softmax層的輸入,即未歸一化的概率得分,e為自然底數,得到單元對應的類別概率歸一化向量利用隨機梯度下降算法優化訓練網絡模型,并通過過反向傳播方式更新模型參數;
將第j個幀單元的真實類別標記為cj,則其交叉熵損失函數為表示單元對應動作類別k的真實概率,表示單元對應動作類別k的預測概率,由于僅其余類別的真實概率為0,簡化為其中為單元標記類別cj對應的預測概率;
根據單元對應的類別概率歸一化向量yj,得到單元類別預測序列其中第j個幀單元的預測類別標記的幀單元記為動作單元的索引集合其中xq為第q個動作單元索引,Nact為動作單元數量;
步驟(3).生成邊界搜索智能體,輸入為動作單元,輸出為動作單元所屬動作片段的時序邊界;具體是:
(3-1).根據動作實例標記信息得到動作實例獲得其中為實例動作單元索引,為其對應的時序邊界索引,為實例動作單元數量;
(3-2).通過多層全連接層生成邊界搜索智能體,具體包括記憶模塊、執行網絡和評判網絡;其中,記憶模塊用于記錄歷史行為,執行網絡學習輸出行為分別尋找動作單元對應的開始邊界和結束邊界,評判網絡估計各行為的后續累積獎賞輔助執行網絡;其中,記憶模塊包含一個固定大小u+1的記憶及其對應的可學習權重向量在某一時間步t,記錄前u個時間步所觀察的視頻單元特征序列和動作單元x0的特征序列智能體在時間步t能夠觀察到的狀態向量為為記憶模塊中的所有視頻單元特征的堆疊;
執行網絡中所有全連接層的權重參數和偏置參數統一表示為θa,智能體行為空間表示為其中dbg為所有視頻中背景持續時間的平均值,a為智能體行為;智能體從動作單元x0出發,在某一時間步t,輸入為狀態向量Bt,輸出當前時間步t的行為at;當at=0時,智能體判定當前觀察的視頻單元是x0所屬動作片段的時序邊界,當at≠0時,智能體跳轉至其他視頻單元索引xt+1=xt+at;
評判網絡中所有全連接層的權重參數和偏置參數統一表示為θv,在某一時間步t,輸入為狀態向量Bt,估計當前狀態的后續累積獎賞期望值為其中rt表示時間步t行為的單步獎賞,n'為智能體與環境交互時每個回合的總步數,γ∈[0,1]為獎賞折扣系數,E[·]表示數學期望;
(3-3).在訓練中,僅對發現行為進行獎賞,在某一時間步t,其狀態向量為Bt,智能體發現邊界單元xt,假設初始動作單元索引為和動作實例邊界為為開始邊界單元索引,為結束邊界單元索引,則獎賞函數rhit為:
其中,σ>0為基線獎賞值,Igt為初始動作單元的動作實例邊界鄰域的單元索引正整數ε用于限定鄰域范圍大小,為中心獎賞,常數k>0用于控制rcenter獎賞程度,為邊界單元索引,為步數獎賞,n為發現該動作實例耗費的時間步數,nideal為發現一個動作實例耗費的理想步數,η>0為獎賞懲罰值,p<0為沒有正確發現動作實例時的懲罰值;當智能體沿動作單元前向搜索開始邊界時,和當智能體沿動作單元后向搜索結束邊界時,和評判網絡的損失函數Lcri=(rt+Ω(Bt;θv)-Ω(Bt+1;θv))2的更新目標是最小化損失函數Lc,使得網絡能更準確估計某一狀態后續的累積獎賞,并通過隨機梯度下降方法更新網絡參數θv;執行網絡的損失函數為Lact=logπ(at|Bt;θa)A(Bt,at;θa,θv),π(at|Bt;θa)為智能體搜索策略,即智能體根據當前狀態向量Bt執行行為at的概率,A(Bt,at;θa,θv)=rt+Ω(Bt;θv)-Ω(Bt+1;θv)為優勢函數,其更新目標是在狀態Bt能獲得最大累計獎賞的行為概率,在保持參數θv不變的同時通過隨機梯度上升方法更新網絡參數θa;
步驟(4).對新視頻根據動作發現網絡獲得動作單元,通過邊界搜索智能體獲得動作片段的時序邊界,然后進行去重處理,完成時序動作片段分割任務;具體是:
(4-1).對于新視頻利用(1-1)獲得視頻幀圖像序列通過(1-2)和(1-3)獲得其幀單元編碼序列
(4-2).將幀單元編碼序列U'輸入至步驟(2)構建的動作發現網絡中,得到動作單元索引集合將動作單元索引集合X'的動作單元輸入步驟(3)的邊界搜索智能體中,則智能體輸出各動作單元所屬動作片段的時序邊界s'q和e'q分別表示第q個動作單元的開始時間和結束時間;
(4-3).對于新視頻V',得到初步的動作片段分割結果通過(2-3)中視頻單元對應的類別概率歸一化向量計算各個動作片段在所有動作類別上的得分序列其中pq為第q個動作片段在各類別上的得分向量,分別根據cq=argmax(pq)和Oq=max(pq)得到第q個動作片段對應的類別和得分;
(4-4).使用非極大值抑制算法進行去重處理,即剔除各動作片段之間的時序重疊度大于設定閾值τ的重復動作片段,僅保留動作得分更高的片段,最終從原始視頻中分割獲得Nfinal個動作片段τ=0.2~0.4,集合元素的三個值分別對應動作的開始時間、結束時間、動作類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010722304.4/1.html,轉載請聲明來源鉆瓜專利網。





