[發(fā)明專利]基于骨骼關(guān)鍵點和卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法在審
| 申請?zhí)枺?/td> | 202211622363.X | 申請日: | 2022-12-16 |
| 公開(公告)號: | CN116152913A | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計)人: | 魏運;張正;白文飛;趙麗媛;謝莎婷;張春家;豆飛;吳雁軍 | 申請(專利權(quán))人: | 北京市地鐵運營有限公司技術(shù)創(chuàng)新研究院分公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/46;G06V10/82;G06N3/08;G06N3/0464 |
| 代理公司: | 南京科闊知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32400 | 代理人: | 蘇興建 |
| 地址: | 100070 北京市豐*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 骨骼 關(guān)鍵 卷積 神經(jīng)網(wǎng)絡(luò) 動作 識別 方法 | ||
一種基于骨骼關(guān)鍵點和卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法,首先采集視頻;然后提取每幀圖像中每個人的二維姿態(tài)關(guān)鍵點坐標(biāo),進(jìn)行熱圖堆疊,得到三維熱圖;最后采用改進(jìn)的slowonly網(wǎng)絡(luò)處理三維熱圖。改進(jìn)的slowonly網(wǎng)絡(luò)的是去除原始slowonly網(wǎng)絡(luò)中前期下采樣操作,改進(jìn)原始slowonly網(wǎng)絡(luò)中的時間卷積模塊;改進(jìn)原始slowonly網(wǎng)絡(luò)中的通道注意力機制。經(jīng)改進(jìn)的slowonly網(wǎng)絡(luò)處理得到的輸出結(jié)果即為識別后的結(jié)果。本方法在不引入額外參數(shù)的情況下,降低了遮擋問題對識別精度的影響,在復(fù)雜監(jiān)控場景下有一定的應(yīng)用價值。
技術(shù)領(lǐng)域
本發(fā)明涉及人類行為識別技術(shù)領(lǐng)域,具體涉及一種適用于復(fù)雜監(jiān)控場景的基于骨骼關(guān)鍵點和卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法。
背景技術(shù)
人體動作識別一直以來都是計算機視覺的研究熱點之一,在智能監(jiān)控、運動分析、人機交互等諸多領(lǐng)域都有著廣泛的應(yīng)用前景。其目的是提取出視頻中的運動信息,識別出視頻中出現(xiàn)的主要動作類型。現(xiàn)有的一些識別方法采用了不同形式進(jìn)行特征表示,如RGB幀、光流、骨骼關(guān)鍵點等。相比于其他數(shù)據(jù)類型,骨骼類型的數(shù)據(jù)能夠更加直觀地反映出人體的運動特征,并且不易受光線變化、背景復(fù)雜程度、人體外觀差異等因素影響,能夠很好地避免噪聲干擾。因此基于骨骼關(guān)鍵點的動作識別方法近年來受到了越來越多的關(guān)注。
現(xiàn)有的基于骨骼數(shù)據(jù)的動作識別方法所采用的網(wǎng)絡(luò)主要有以下幾種:(1)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN);(2)圖卷積網(wǎng)絡(luò)(GCN);(3)卷積神經(jīng)網(wǎng)絡(luò)(CNN)。其中:
循環(huán)神經(jīng)網(wǎng)絡(luò)在對時間序列進(jìn)行建模方面有較好的效果,但它忽略了骨骼關(guān)鍵點之間存在的空間結(jié)構(gòu)信息,導(dǎo)致其在空間域上提取特征的能力較弱。
圖卷積網(wǎng)絡(luò)將骨骼關(guān)鍵點數(shù)據(jù)表示為拓?fù)鋱D的形式,并且基于所構(gòu)造的拓?fù)鋱D進(jìn)行圖卷積操作,圖結(jié)構(gòu)在語義信息上更豐富,是骨骼數(shù)據(jù)有效的表示形式,但是圖卷積網(wǎng)絡(luò)更加復(fù)雜并且復(fù)雜性與識別人數(shù)呈線性關(guān)系,此外識別能力受坐標(biāo)提取效果影響較大且對于時序較長的動作信息建模能力較弱。
卷積神經(jīng)網(wǎng)絡(luò)由于其具有平移不變性的特點,在處理骨骼關(guān)鍵點信息時,能夠較好的獲取骨骼關(guān)鍵點之間的局部特征,在空間上提取特征的能力較強,但是如何更好地提取時間維度的特征是需要考慮的問題。
發(fā)明內(nèi)容
發(fā)明目的:提供一種適用于復(fù)雜場景的人體動作識別方法,對原始視頻中的人物動作進(jìn)行識別,識別精度有一定程度的提升。
技術(shù)方案:基于骨骼關(guān)鍵點和卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法采用去除前期下采樣操作、改進(jìn)了時間卷積模塊、改進(jìn)了通道注意力機制的slowonly網(wǎng)絡(luò)結(jié)構(gòu),處理經(jīng)姿態(tài)估計并預(yù)處理過的三維熱圖。
一種基于骨骼關(guān)鍵點和卷積神經(jīng)網(wǎng)絡(luò)的動作識別方法,其特征是首先采集視頻;然后提取每幀圖像中每個人的二維姿態(tài)關(guān)鍵點坐標(biāo),進(jìn)行熱圖堆疊,得到三維熱圖;最后采用改進(jìn)的slowonly網(wǎng)絡(luò)處理三維熱圖;
所述改進(jìn)的slowonly網(wǎng)絡(luò)的是去除原始slowonly網(wǎng)絡(luò)中前期下采樣操作,改進(jìn)原始slowonly網(wǎng)絡(luò)中的時間卷積模塊;改進(jìn)原始slowonly網(wǎng)絡(luò)中的通道注意力機制;
三維熱圖在改進(jìn)的slowonly網(wǎng)絡(luò)中的處理過程為:
1)三維熱圖通過改進(jìn)的slowonly網(wǎng)絡(luò)的卷積層、第一~第三resNet層;
2)將輸入的特征沿通道維度平均分成四部分后,再通過改進(jìn)的時間卷積模塊進(jìn)行處理,步驟為:
2.1)用3×1×1的時間卷積核對前兩部分直接卷積后輸出;
2.2)后兩部分卷積的輸入分別包含了前一部分的輸出特征以及本部分的輸入特征,即第三部分包含了第二部分的輸出特征,第四部分包含了第三部分的輸出特征;
2.3)將這四部分輸出合并后,再依次通過1×1×3的時間卷積核網(wǎng)絡(luò)和1×1×1的時間卷積核網(wǎng)絡(luò)后輸出;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京市地鐵運營有限公司技術(shù)創(chuàng)新研究院分公司,未經(jīng)北京市地鐵運營有限公司技術(shù)創(chuàng)新研究院分公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211622363.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





