[發(fā)明專(zhuān)利]一種基于改進(jìn)長(zhǎng)效遞歸深度卷積模型的人物動(dòng)作識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010606907.8 | 申請(qǐng)日: | 2020-06-29 |
| 公開(kāi)(公告)號(hào): | CN111914638B | 公開(kāi)(公告)日: | 2022-08-12 |
| 發(fā)明(設(shè)計(jì))人: | 胡宸;陳志;史佳成;葉科淮;王仁杰;李玲娟;岳文靜 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京郵電大學(xué) |
| 主分類(lèi)號(hào): | G06V20/40 | 分類(lèi)號(hào): | G06V20/40;G06V40/20;G06V10/774;G06V10/82;G06N3/04 |
| 代理公司: | 南京瑞弘專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210046 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) 長(zhǎng)效 遞歸 深度 卷積 模型 人物 動(dòng)作 識(shí)別 方法 | ||
本發(fā)明公開(kāi)了一種基于改進(jìn)長(zhǎng)效遞歸深度卷積模型的人物動(dòng)作識(shí)別方法,先輸入一段連續(xù)的視頻幀,利用光流法根據(jù)輸入幀構(gòu)造神經(jīng)網(wǎng)絡(luò)輸入模型;接著利用長(zhǎng)效遞歸卷積模型求出每個(gè)輸入序列所對(duì)應(yīng)的特征值;利用字符串Hash的方法,構(gòu)造CNN編碼器,利用CNN編碼器計(jì)算出該輸入可能對(duì)應(yīng)的行為動(dòng)作yt;然后求出每個(gè)可能的行為yt的條件概率;最后將概率最大的yt作為輸出;本發(fā)明公開(kāi)的識(shí)別方法避免了極值的干擾,提高了準(zhǔn)確性;通過(guò)字符串Hash的方法對(duì)輸入序列編碼,減少了時(shí)間復(fù)雜度;通過(guò)最大似然估計(jì)法以及輸入序列和輸出序列相結(jié)合的方式,解決了極值點(diǎn)影響結(jié)果的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能識(shí)別技術(shù)領(lǐng)域,主要涉及一種基于改進(jìn)長(zhǎng)效遞歸深度卷積模型的人物動(dòng)作識(shí)別方法。
背景技術(shù)
神經(jīng)網(wǎng)絡(luò)(全稱(chēng)人工神經(jīng)網(wǎng)絡(luò))是一種模仿生物神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型,具有學(xué)習(xí)功能,是一種非線(xiàn)性的統(tǒng)計(jì)數(shù)據(jù)建模工具,通過(guò)統(tǒng)計(jì)學(xué)的方法使其和人一樣具有判斷能力,相較于普通的邏輯學(xué)推理更有優(yōu)勢(shì),而深度學(xué)習(xí)則是以神經(jīng)網(wǎng)絡(luò)為架構(gòu),對(duì)數(shù)據(jù)進(jìn)行特征學(xué)習(xí)的算法。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,如何對(duì)一個(gè)圖片序列,或是由圖片幀組成的視頻進(jìn)行識(shí)別是學(xué)術(shù)界重點(diǎn)關(guān)注的對(duì)象。按照拓?fù)浣Y(jié)構(gòu)被分為多個(gè)學(xué)習(xí)階段,由卷積層,非線(xiàn)性處理單元和采樣層的組合組成,在圖像識(shí)別領(lǐng)域有很好的表現(xiàn),廣泛被運(yùn)用于圖像識(shí)別領(lǐng)域中的特征提取,目標(biāo)檢測(cè),圖像分類(lèi)等,但對(duì)于視頻中人的動(dòng)作的識(shí)別卻無(wú)能為力。
對(duì)于視頻中的人物行為識(shí)別主要分為兩個(gè)部分,一是對(duì)于類(lèi)似背景之類(lèi)的靜態(tài)信息的處理,二是對(duì)于動(dòng)態(tài)對(duì)象的跟蹤和識(shí)別。就視頻分類(lèi)來(lái)說(shuō),如何使視頻中的靜態(tài)信息和動(dòng)態(tài)信息互不影響特征提取的同時(shí)又能保持這兩者可以相互結(jié)合,以及結(jié)合的過(guò)程中動(dòng)態(tài)特征向量和靜態(tài)特征向量的貢獻(xiàn)律是多少是需要確定的。
目前常用的用來(lái)檢測(cè)目標(biāo)的跟蹤方法主要是光流法,而常用的神經(jīng)網(wǎng)絡(luò)包括RNN神經(jīng)網(wǎng)絡(luò),LSTM神經(jīng)網(wǎng)絡(luò)等。光流法的優(yōu)點(diǎn)是在不需要知道場(chǎng)景任何信息的情況下,能夠檢測(cè)出運(yùn)動(dòng)目標(biāo),但是計(jì)算復(fù)雜度高,實(shí)時(shí)性差,對(duì)硬件有較高的要求。而訓(xùn)練標(biāo)準(zhǔn)的RNN來(lái)解決需要學(xué)習(xí)長(zhǎng)期時(shí)間依賴(lài)性的問(wèn)題是不理想的。
發(fā)明內(nèi)容
發(fā)明目的:為了解決上述背景技術(shù)中存在的技術(shù)問(wèn)題,本發(fā)明提供了一種基于改進(jìn)長(zhǎng)效遞歸深度卷積模型的人物動(dòng)作識(shí)別方法。
技術(shù)方案:本發(fā)明采用的技術(shù)方案為:
一種基于改進(jìn)長(zhǎng)效遞歸深度卷積模型的人物動(dòng)作識(shí)別方法,其特征在于,包括如下步驟:
步驟S1、輸入一組連續(xù)堆疊的視頻幀,幀與幀之間的一組位移矢量場(chǎng)表示為dt(u,v),后一幀與前一幀之間的位移矢量為(u,v),并將矢量場(chǎng)的水平和垂直分量dx和dy作為圖像通道;
步驟S2、將輸入的視頻幀堆疊成L個(gè)連續(xù)幀的流動(dòng)通道dx和dy,共形成2L個(gè)輸入通道;構(gòu)造用于任意幀τ的卷積神經(jīng)網(wǎng)絡(luò)輸入體積Iτ如下:
u=[1;w],v[1;h],k=[1;L]
其中,u為寬度分量,v代表高度分量,k代表長(zhǎng)度分量;將基于特征編碼的時(shí)間矩陣Iτ(u,v,a)與RGB圖像組成的三維矩陣Iτ2(u,v,a)分別作為時(shí)空卷積神經(jīng)網(wǎng)絡(luò)的輸入,a∈[1,2L]可以看做對(duì)L幀中一個(gè)點(diǎn)進(jìn)行的編碼,時(shí)間域上的神經(jīng)網(wǎng)絡(luò)多次經(jīng)過(guò)由包含方向敏感的濾波器的卷積神經(jīng)網(wǎng)絡(luò)層,整流層和池化層迭代,其中散度,卷曲和剪切力也可以通過(guò)光流梯度進(jìn)行計(jì)算,而RGB圖像組成的那部分三維矩陣只需通過(guò)正常CNN的多次卷積池化濾波層迭代,最終得到在時(shí)間上和空間上幀與幀之間的相互獨(dú)立的特征向量xt;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010606907.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 用于創(chuàng)建遞歸可縮放模板實(shí)例的數(shù)據(jù)表中的系統(tǒng)和方法
- 放射線(xiàn)攝像裝置和放射線(xiàn)檢測(cè)信號(hào)處理方法
- 遞歸路由更新處理方法與裝置、路由器
- 資料處理方法及其裝置
- 多閾值遞歸圖計(jì)算方法及裝置
- 計(jì)算無(wú)人機(jī)集群重新編隊(duì)的最短編隊(duì)距離的方法
- 一種遞歸數(shù)據(jù)錄入方法及系統(tǒng)
- DNS遞歸差異化服務(wù)方法、設(shè)備及系統(tǒng)
- 解碼或編碼的方法、裝置和介質(zhì)
- 一種遞歸算法實(shí)現(xiàn)方法、裝置及電子設(shè)備





