[發(fā)明專利]人體行為識別模型及其構建方法和人體行為識別方法在審
| 申請?zhí)枺?/td> | 201711054505.6 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN107862275A | 公開(公告)日: | 2018-03-30 |
| 發(fā)明(設計)人: | 郝宗波;林佳月;王瑩;楊泉;張舒雨;王偉國;孔佑真 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 成都正華專利代理事務所(普通合伙)51229 | 代理人: | 何凡 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 人體 行為 識別 模型 及其 構建 方法 | ||
技術領域
本發(fā)明涉及物理學、機器學習及深度學習領域,特別涉及一種人體行為識別模型及其構建方法和人體行為識別方法。
背景技術
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡,它的人工神經(jīng)元可以響應周圍一部分覆蓋范圍內的單元,對于大型圖像處理有出色表現(xiàn)。
由于行為是一個跟時間和空間都有關的人體活動,而傳統(tǒng)的2D卷積神經(jīng)網(wǎng)絡,對空間的特征比較敏感,而無法處理視頻中的時間特性,將其用作有時序變化的行為的識別,無法滿足預期目標;
使用卷積神經(jīng)網(wǎng)絡進行特征提取時,隨著其深度的加深,對特征的提取從具體到抽象,從簡單到復雜,在樣本少、網(wǎng)絡深度太深或噪聲太大的條件下,十分容易產(chǎn)生過擬合的結果;所謂過擬合就是網(wǎng)絡訓練出的分類器,只對與訓練樣本相似的輸入敏感,而為其輸入同類的其它未見過的測試樣例,其特征提取能力及分類能力將會變得很低;為了防止過擬合,卷積神經(jīng)網(wǎng)絡也引入dropout來進行改善,但這個方法將消耗更多的計算資源;
針對在多數(shù)行為識別任務中,特征的交叉分布是導致過擬合的常見問題,論文“Action Recognition based on Subdivision-Fusion Model”提出了改進的細分融合模型(SFM),該模型在細分階段,多數(shù)類別的樣本特征都是相似且交叉分布的,SFM將這樣的樣本分組成多個更具備可區(qū)分性的子類別,子類別的邊界更容易找到,從而避免過度擬合。在隨后的融合階段,多子類別分類結果被轉換回原始的類別識別問題。細分融合模型提供了確定聚類中心數(shù)的兩種方法,但是其仍存在以下問題:
其中其確定聚類中心數(shù)的兩種方法:一種是直接觀察高維特征通過t-SNE降維后的二維可視化圖形,人工選擇應該分成多少類,另一種是基于每個類別樣本的數(shù)量與最少類樣本數(shù)量的比值確定聚類數(shù)目。兩種方法都需要人工觀察,不能自動進行聚類。而且其性能取決于研究人員對的個人選擇。,同時,這個過程必須被人的參與打斷。
這些問題都將嚴重影響行為識別性能及識別程序的穩(wěn)定性與自動化程度。
發(fā)明內容
針對現(xiàn)有技術中的上述不足,本發(fā)明提供的人體行為識別模型及其構建方法和人體行為識別方法解決了人體行為識別過程中容易出現(xiàn)過擬合和自動化差的問題。
為了達到上述發(fā)明目的,本發(fā)明采用的技術方案為:
第一方面,提供一種人體行為識別模型的構建方法,其包括:
獲取包括若干人體行為視頻的樣本庫,并對樣本庫中的所有人體行為視頻進行預處理;
采用3D卷積神經(jīng)網(wǎng)絡提取預處理后的人體行為視頻的特征向量;
將提取的特征向量輸入庫倫力場,所有特征向量在相同類產(chǎn)生引力,不種類產(chǎn)生斥力的作用下相對移動進行聚類;
采用損失函數(shù)計算特征向量所代表的質點當前位置與相似度函數(shù)最小時特征向量的目標位置之間的誤差;
當所述誤差大于等于設定閾值時,將所述誤差進行反向傳播,并調整3D卷積神經(jīng)網(wǎng)絡參數(shù),直至誤差小于設定閾值;
當所述誤差小于設定閾值時,完成3D卷積神經(jīng)網(wǎng)絡的訓練,并采用分類器對特征向量進行訓練;
計算分類器的分類輸出結果與樣本的標簽之間的差異,當所述差異大于等于預設值時,將所述差異反向傳播,并更新分類器的參數(shù);
當所述差異小于預設值時,記錄分類器當前的優(yōu)化參數(shù)、聚類后子行為類別標簽及聚類后子行為類別標簽對應的人體行為視頻;
采用設置有優(yōu)化參數(shù)的分類器和優(yōu)化后的3D卷積神經(jīng)網(wǎng)絡形成人體行為識別模型。
進一步地,所述損失函數(shù)的計算公式為:
其中,為第i個樣本的損失值;W,b分別為3D卷積神經(jīng)網(wǎng)絡的權值和偏置;為第i個樣本第j維度的值;為相似度函數(shù)值達到最小值時,第i個樣本第j維度的目標值;為衰減項。
進一步地,所述相似度函數(shù)的計算公式為:
其中,D(xi,xj)為種類xi和種類xj的相似度;mi為種類i的均值向量;mj為種類j的均值向量;和為種類i和種類j的類內方差。
進一步地,所述3D卷積神經(jīng)網(wǎng)絡包括七層,第一層為輸入層,其具有三個通道,三個通道分別接收預處理后的人體行為視頻當前時刻上一秒的人體行為的多幀圖像、光流在x方向軸上的分量和光流在y方向軸上的分量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711054505.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





