[發明專利]一種基于卷積神經網絡的動作檢測模型在審
| 申請號: | 201611168185.2 | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN106650655A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 劉波;賈川川 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 動作 檢測 模型 | ||
1.一種基于卷積神經網絡的動作檢測模型,其特征在于:
本方法提出的動作檢測模型由三個部分組成,即更高效的基于區域的卷積神經網絡Faster RCNN、SVM分類器和動作管道ActionTubes;動作檢測模型的每個部分分別完成相應工作,最終實現對一段或多段視頻中所包含動作行為的檢測任務;Faster RCNN對每幀圖片獲取多個興趣區域,并對每個興趣區域提取特征;本檢測模型提取特征采用雙通道模型,即基于幀圖的Faster RCNN通道和基于光流圖的Faster RCNN通道,他們分別提取表觀特征和動作特征;然后將表觀特征和動作特征聯合形成時空域特征,把時空域特征輸入到SVM分類器中,經SVM分類給出相應區域的動作類別預測值;本模型中的SVM分類器是由多個二分器組成,每個動作類別有一個二分器;該階段的SVM分類器從幀層面做出的動作預測,此預測將作為第三部分預測視頻所屬動作類別的憑據;第三部分即動作管道部分在視頻層面給出最終的動作檢測結果;該階段從視頻時序角度出發,基于相鄰的幀一般包含著相同動作且包含動作的區域重合度高的特點,將視頻幀中綜合得分高的區域鏈接起來,形成一個個競選管道,最終將得分值最高競選管道作為最終的動作檢測結果;
第一部分:Faster RCNN
Faster RCNN由兩個深度神經網絡組成,即RPN和Fast RCNN,網絡中包含多層的卷積層、下采樣層和全連接層,這些層通過組合形成了一個深度神經網絡,其中每種類型的層都可對輸入到深度網絡中圖像進行特征的提取;RPN網絡是一個全卷積網絡,由多層卷積層構建,RPN網絡最后輸出值有兩個,分別輸出區域位置信息和對應區域包含及不包含目標的置信度;RPN和Fast RCNN分別完成獲取興趣區域和提取區域特征的任務;本方法提取深度特征采用雙通路模型,兩個通路的Faster RCNN網絡分別是基于原始幀圖數據集和光流圖數據集訓練而成,因此兩個通路的Faster RCNN網絡都具備獲取興趣區域和提取興趣區域特征的能力;然而本方法期望得到的興趣區域包含的信息中,更多的是動作信息,所以選擇使用基于光流圖數據集訓練的Faster RCNN網絡的RPN來獲取興趣區域;此RPN基于光流信息生成興趣區域,這些興趣區域被雙通路的Faster RCNN共享,分別作為這兩個網絡的后繼網絡Fast RCNN的輸入,最終輸出對應的動作特征和表觀特征;
第二部分:SVM分類器
Faster RCNN深度網絡實現對幀圖的興趣區域的獲取和對興趣區域特征的提取,SVM分類器基于深度特征對區域所屬的動作類別進行預測,給出每個區域屬于每個動作類別的置信度大小,這個置信度大小將作為第三階段鏈接最終動作管道的依據;SVM分類器的訓練過程如下;
訓練SVM分類器是基于從深度卷積神經網絡獲取的深度特征的聯合特征,即時空域特征;任給一個區域R,分別假定φs(R)和φm(R)是由基于原幀圖區域的Faster RCNN網絡和基于光流圖區域的FasterRCNN網絡的第7層全連接層輸出的特征向量,分別是4096維,聯合這兩個特征向量,得到時空域特征向量φ(R)=[φs(R)Tφm(R)T]T,其中“T”代表轉置操作,時空域特征向量φ(R)維度為8192;然后對每個動作類別α∈A,A代表動作類別集,分別訓練對應動作類別的SVM分類器Wα;
第三部分:動作管道
本動作檢測模型的第二階段只是從幀層面給出相關區域的動作類別預測,還沒有考慮視頻的時序性,需要從整段視頻角度出發給出動作類別的預測;這里將對第三階段如何從幀層面到視頻層面做出最終的動作檢測進行介紹;本方法中把組成視頻的幀序列中包含某個動作類別的競選區域按時間序列鏈接的集合叫做動作管道,動作管道就是最終的動作檢測結果;
假定分別從視頻中在時刻t、t+1的相鄰兩幀獲取了兩個區域,記為Rt和Rt+1,對于某個動作類別α∈A,定義鏈接這兩個區域的得分公式為:這里表示動作類別α對應的分類器函數,δ(Rt+Rt+1)表示兩個區域的交集;λ是常量,該常量是調整兩區域交集大小在總得分公式中的權重;這個公式說明當兩個區域在空間重疊區域越大且同屬于某個動作類別的置信度越大,那個這兩個區域應該被鏈接作為關聯動作管道的子集;對于某段視頻的一個動作α∈A,最優路徑的尋找方法如下:
這里是關于動作α被鏈接的區域序列集合;對于上述的最優化問題使用維特比算法,把所求的最優路徑稱作動作管道,并對生成的動作管道進行評價、給予相應的得分值其中得分值最大的動作管道所組成的區域集合便是對應視頻最終動作檢測的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611168185.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:浴室鏡(M2146II)
- 下一篇:一種用戶身份識別裝置和機器人





