[發(fā)明專利]人體行為識別模型及其構(gòu)建方法和人體行為識別方法在審
| 申請?zhí)枺?/td> | 201711054505.6 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN107862275A | 公開(公告)日: | 2018-03-30 |
| 發(fā)明(設計)人: | 郝宗波;林佳月;王瑩;楊泉;張舒雨;王偉國;孔佑真 | 申請(專利權(quán))人: | 電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 成都正華專利代理事務所(普通合伙)51229 | 代理人: | 何凡 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 人體 行為 識別 模型 及其 構(gòu)建 方法 | ||
1.人體行為識別模型的構(gòu)建方法,其特征在于,包括:
獲取包括若干人體行為視頻的樣本庫,并對樣本庫中的所有人體行為視頻進行預處理;
采用3D卷積神經(jīng)網(wǎng)絡提取預處理后的人體行為視頻的特征向量;
將提取的特征向量輸入庫倫力場,所有特征向量在相同類產(chǎn)生引力,不種類產(chǎn)生斥力的作用下相對移動進行聚類;
采用損失函數(shù)計算特征向量所代表的質(zhì)點當前位置與相似度函數(shù)最小時特征向量的目標位置之間的誤差;
當所述誤差大于等于設定閾值時,將所述誤差進行反向傳播,并調(diào)整3D卷積神經(jīng)網(wǎng)絡參數(shù),直至誤差小于設定閾值;
當所述誤差小于設定閾值時,完成3D卷積神經(jīng)網(wǎng)絡的訓練,并采用分類器對特征向量進行訓練;
計算分類器的分類輸出結(jié)果與樣本的標簽之間的差異,當所述差異大于等于預設值時,將所述差異反向傳播,并更新分類器的參數(shù);
當所述差異小于預設值時,記錄分類器當前的優(yōu)化參數(shù)、聚類后子行為類別標簽及聚類后子行為類別標簽對應的人體行為視頻;
采用設置有優(yōu)化參數(shù)的分類器和優(yōu)化后的3D卷積神經(jīng)網(wǎng)絡形成人體行為識別模型。
2.根據(jù)權(quán)利要求1所述的人體行為識別模型的構(gòu)建方法,其特征在于,所述損失函數(shù)的計算公式為:
其中,為第i個樣本的損失值;W,b分別為3D卷積神經(jīng)網(wǎng)絡的權(quán)值和偏置;為第i個樣本第j維度的值;為相似度函數(shù)值達到最小值時,第i個樣本第j維度的目標值;為衰減項。
3.根據(jù)權(quán)利要求1所述的人體行為識別模型的構(gòu)建方法,其特征在于,所述相似度函數(shù)的計算公式為:
其中,D(xi,xj)為種類xi和種類xj的相似度;mi為種類i的均值向量;mj為種類j的均值向量;和為種類i和種類j的類內(nèi)方差。
4.根據(jù)權(quán)利要求1-3任一所述的人體行為識別模型的構(gòu)建方法,其特征在于,所述3D卷積神經(jīng)網(wǎng)絡包括七層,第一層為輸入層,其具有三個通道,三個通道分別接收預處理后的人體行為視頻當前時刻上一秒的人體行為的多幀圖像、光流在x方向軸上的分量和光流在y方向軸上的分量;
第二層為三維卷積層,用數(shù)量為n、尺度為cw*ch*cl的卷積核對第一層輸入的圖像和光流進行卷積運算;第三層為三維下采樣層,用尺度為pw*ph*pl的卷積核對第二層的輸出進行最大池化;
第四層為三維卷積層,采用第二層相同的運算方式對第三層的輸出進行卷積運算;第五層為NIN層,采用由兩層感知機卷積層的網(wǎng)絡組成,用于根據(jù)第四層的輸出提取人體行為的非線性特征;
第六層為金字塔下采樣層,由不同大小的三維下采樣層組成,用于對第五層輸出的人體行為的非線性特征進行下采樣處理;第七層是全連接層,根據(jù)第六層的輸出得到固定維度的特征向量。
5.根據(jù)權(quán)利要求4所述的人體行為識別模型的構(gòu)建方法,其特征在于,所述第二層對第一層輸入的圖像和光流進行卷積運算的計算公式為:
其中,w為卷積核的權(quán)重;u為輸入層三個通道的圖像灰度值、光流的水平分量和垂直分量;vxyz為三維卷積層的輸出;P、Q分別為輸入層輸出的二維矩陣的總行數(shù)和總列數(shù);R為人體行為視頻的長度;p、q分別為輸入層輸出的二維矩陣中第p行和第q列;r為人體行為視頻的第r幀;cw為卷積核的寬度,ch為卷積核高度,cl為卷積核在時間軸上的長度。
6.根據(jù)權(quán)利要求4所述的人體行為識別模型的構(gòu)建方法,其特征在于,采用三維下采樣層對第二層的輸出進行最大池化時三維重疊最大下采樣的計算公式為:
其中,x為第二層三維卷積提取的特征;y為采樣后得到的輸出,s、t和r分別為圖像在寬度、高度和視頻時間長度三個方向的采樣步長;m、n和l是第三層池化層的feature map在x方向、y方向和時間軸上的元素索引;S1、S2和S3是第二層輸出矩陣的總行數(shù)、總列數(shù)和總幀數(shù)。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711054505.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





