[發(fā)明專利]基于DAMR_3DNet的動(dòng)作識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111113825.0 | 申請(qǐng)日: | 2021-09-23 |
| 公開(公告)號(hào): | CN113850182A | 公開(公告)日: | 2021-12-28 |
| 發(fā)明(設(shè)計(jì))人: | 田秋紅;張?jiān)?/a>;孫文軒;章立早 | 申請(qǐng)(專利權(quán))人: | 浙江理工大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310018 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 damr_3dnet 動(dòng)作 識(shí)別 方法 | ||
本發(fā)明公開了一種基于DAMR_3DNet的動(dòng)作識(shí)別方法。首先對(duì)每個(gè)動(dòng)作類別進(jìn)行預(yù)處理,讀取動(dòng)作視頻,獲取類別標(biāo)簽;其次對(duì)每個(gè)動(dòng)作視頻進(jìn)行預(yù)處理,采用D?3Dnet模塊提取動(dòng)作視頻的低層時(shí)空特征,將3D卷積解耦為時(shí)間維度上的一維卷積和空間維度上的二維卷積;本發(fā)明設(shè)計(jì)的注意力機(jī)制模塊,能夠關(guān)注到對(duì)最終預(yù)測分類起到作用的通道特征信息和空間位置信息,提高模型分類的性能,最后融入的3D Residual Module不僅能夠進(jìn)一步提取高層時(shí)空特征,而且輸出特征融合了高低層時(shí)空特征信息,從而使得網(wǎng)絡(luò)能夠充分的利用高低層特征信息,并且引入的殘差結(jié)構(gòu)能夠有效的解決因?yàn)樵黾泳W(wǎng)絡(luò)的層數(shù)而帶來的梯度消失問題。
技術(shù)領(lǐng)域
本發(fā)明屬于基于深度學(xué)習(xí)的動(dòng)作識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于DAMR_3DNet(Decouping 3D-CNN+Attention-Mechnism Module+3DResidual Module)的動(dòng)作識(shí)別方法。
背景技術(shù)
隨著深度學(xué)習(xí)的技術(shù)不斷發(fā)展以及動(dòng)作識(shí)別應(yīng)用場景不斷增加,目前在動(dòng)作識(shí)別領(lǐng)域,基于深度學(xué)習(xí)的動(dòng)作識(shí)別技術(shù)逐漸稱為一個(gè)關(guān)鍵領(lǐng)域。
動(dòng)作識(shí)別技術(shù)是計(jì)算機(jī)視覺的一個(gè)重要的研究領(lǐng)域,在人機(jī)方面應(yīng)用較為廣泛,動(dòng)作識(shí)別技術(shù)在最近幾年來已經(jīng)逐漸成為計(jì)算機(jī)視覺領(lǐng)域的主要研究內(nèi)容。動(dòng)作識(shí)別的研究方法總體上可以分為兩種,基于傳統(tǒng)機(jī)器學(xué)習(xí)手動(dòng)提取特征的方法和基于深度網(wǎng)絡(luò)學(xué)習(xí)特征的識(shí)別方法。
針對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)手動(dòng)提取特征的方法主要是通過采用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)視頻進(jìn)行預(yù)處理,提取視頻特征,對(duì)特征進(jìn)行向量化,訓(xùn)練模型,預(yù)測動(dòng)作分類。但是視頻動(dòng)作識(shí)別存在光照、背景變化、視頻幀之間存在聯(lián)系等因素的影響,無法充分提取手勢(shì)特征,魯棒性較差。
針對(duì)于深度學(xué)習(xí)的動(dòng)作識(shí)別方法,在視頻分類上,與2D圖像比,增加了時(shí)序信息,因此深度學(xué)習(xí)的動(dòng)作識(shí)別方法不僅可以學(xué)習(xí)空間序列信息,還可以識(shí)別時(shí)間序列特征信息。例如Simonyan首先提出了經(jīng)典的雙流CNN,分別時(shí)使用空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)學(xué)習(xí)空間特征和時(shí)間特征,最后將兩者融合,這種方法彌補(bǔ)了在傳統(tǒng)機(jī)器學(xué)習(xí)方法上在時(shí)間序列上特征信息的丟失。又如Tran等人提出了C3D模型來提取視頻時(shí)空特征,但是該方法存在參數(shù)過多,計(jì)算量較大等因素。
發(fā)明內(nèi)容
針對(duì)于上述動(dòng)作識(shí)別方法所得到的復(fù)雜特征難以提取、2DCNN無法捕捉動(dòng)作視頻幀間的時(shí)序信息以及計(jì)算量參數(shù)較大的問題,本發(fā)明提出一種基于DAMR_3DNet(Decouping3D-CNN+Attention-Mechnism Module+3DResidual Module)的視頻動(dòng)作識(shí)別方法。3DCNN網(wǎng)絡(luò)結(jié)構(gòu)雖能較好的捕捉視頻信息的時(shí)空特征,但其存在網(wǎng)絡(luò)參數(shù)量較大的問題。針對(duì)此問題提出了一種Decouping-3DNet網(wǎng)絡(luò)模型,通過將3D卷積核拆分為在空間維度上的二維卷積以及在時(shí)間維度上的一維卷積,該方法能夠有效的減少參數(shù)的計(jì)算量。此外,設(shè)計(jì)出一種Attention-Mechnism模型,該模型由通道注意力模塊和空間注意力模塊組成,通道注意力模塊能夠在卷積過程中關(guān)注哪些通道特征信息對(duì)視頻動(dòng)作分類起到重要作用,空間注意力模塊關(guān)注圖像中哪些位置的空間特征信息起到重要作用。并且最后融入了一個(gè)3DResidual Module模塊,該模塊不僅融合了包含注意力信息的低層特征,更進(jìn)一步提取視頻動(dòng)作的高層時(shí)空特征,最后通過殘差結(jié)構(gòu)融合了視頻動(dòng)作的高低層時(shí)空特征,使得網(wǎng)絡(luò)能夠有效的利用高低層時(shí)空特征。
本發(fā)明的技術(shù)方案包括下列步驟:
步驟1)讀取動(dòng)作數(shù)據(jù)集UCF101中各類別的動(dòng)作視頻,并獲取各個(gè)動(dòng)作視頻的類別標(biāo)簽,對(duì)每個(gè)動(dòng)作視頻進(jìn)行預(yù)處理得到視頻幀序列,將視頻幀序列作為訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包括訓(xùn)練集和測試集;
步驟2)構(gòu)建DAMR_3Dnet模型:DAMR_3Dnet模型包括依次連接的D-3Dnet(Decouping-3DCNN)模塊、注意力機(jī)制模塊(Attention-Mechnism)和3DResidual模塊;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江理工大學(xué),未經(jīng)浙江理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111113825.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 基于深度學(xué)習(xí)的跳水打分方法、服務(wù)器及系統(tǒng)
- 改進(jìn)S-DNet神經(jīng)網(wǎng)絡(luò)模型的乳腺X射線圖像的分類方法
- 一種無監(jiān)督位姿與深度計(jì)算方法及系統(tǒng)
- 一種肝臟以及肝臟腫瘤的圖像分割方法和裝置
- 總線技術(shù)應(yīng)用系統(tǒng)
- 基于結(jié)合圖像像素先驗(yàn)和圖像梯度先驗(yàn)的圖像去模糊方法
- 一種基于集成神經(jīng)網(wǎng)絡(luò)的智能電網(wǎng)經(jīng)濟(jì)調(diào)度方法
- 一種基于三維變分網(wǎng)絡(luò)的高光譜圖像深度降噪的方法
- 一種基于可變時(shí)序的人體行為識(shí)別方法
- 基于DAMR_3DNet的動(dòng)作識(shí)別方法
- 往復(fù)動(dòng)作體的動(dòng)作機(jī)構(gòu)
- 動(dòng)作判定系統(tǒng)、動(dòng)作判定裝置以及動(dòng)作判定方法
- 動(dòng)作驗(yàn)證裝置、動(dòng)作驗(yàn)證方法、以及動(dòng)作驗(yàn)證系統(tǒng)
- 動(dòng)作檢驗(yàn)裝置、動(dòng)作檢驗(yàn)方法及動(dòng)作檢驗(yàn)程序
- 動(dòng)作輸入裝置、動(dòng)作輸入方法
- 動(dòng)作檢測系統(tǒng)、動(dòng)作檢測裝置、動(dòng)作檢測方法以及動(dòng)作檢測程序
- 動(dòng)作分析裝置、動(dòng)作分析方法及動(dòng)作分析程序
- 動(dòng)作分析裝置、動(dòng)作分析方法、動(dòng)作分析程序及動(dòng)作分析系統(tǒng)
- 動(dòng)作分析裝置、動(dòng)作分析方法、存儲(chǔ)介質(zhì)及動(dòng)作分析系統(tǒng)
- 動(dòng)作分析裝置、動(dòng)作分析方法及動(dòng)作分析程序
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





