[發(fā)明專利]基于知識蒸餾與對抗學(xué)習(xí)的多模態(tài)人體動作識別方法在審
| 申請?zhí)枺?/td> | 202011123560.8 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112364708A | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 陳萬軍;陳亞軍;藺廣逢;李維;范鳳梅 | 申請(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 楊洲 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 知識 蒸餾 對抗 學(xué)習(xí) 多模態(tài) 人體 動作 識別 方法 | ||
基于知識蒸餾與對抗學(xué)習(xí)的多模態(tài)人體動作識別方法,具體步驟是:輸入多模態(tài)人體動作訓(xùn)練數(shù)據(jù);針對各模態(tài)數(shù)據(jù),分別訓(xùn)練單模態(tài)動作識別模型;多模態(tài)識別模型知識蒸餾集成;分類預(yù)測;利用知識蒸餾和對抗學(xué)習(xí)技術(shù),將具有不同描述特性和分類能力的多模態(tài)識別模型集成遷移到一個新網(wǎng)絡(luò)模型中;在測試階段,該新模型能夠在部分模態(tài)數(shù)據(jù)丟失的情況下仍然保持多模態(tài)的特征提取能力和判別力,提升了模型的分類效果和環(huán)境適應(yīng)性。
技術(shù)領(lǐng)域
本發(fā)明屬于視頻分析技術(shù)領(lǐng)域,具體涉及基于知識蒸餾與對抗學(xué)習(xí)的多模態(tài)人體動作識別方法,可用于將視頻中的人體動作數(shù)據(jù)進(jìn)行分類識別。
背景技術(shù)
視頻中的人體動作識別旨在對包含人體動作的圖像序列進(jìn)行處理分析,學(xué)習(xí)并理解其中人的動作和行為,進(jìn)而建立起視頻內(nèi)容和動作類型之間的映射關(guān)系,使得計算機(jī)能夠像人類一樣去“理解”視頻,并被廣泛地應(yīng)用于智能視頻監(jiān)控、公共安全與行為分析、人-機(jī)交互、人-機(jī)協(xié)作、醫(yī)療保健以及智能機(jī)器人等眾多領(lǐng)域中。基于多模態(tài)數(shù)據(jù)的人體動作識別是指綜合利用不同模態(tài)下的數(shù)據(jù)特性,如RGB視覺模態(tài)和具有場景結(jié)構(gòu)信息的Depth模態(tài),來對人體動作的表觀、結(jié)構(gòu)和運(yùn)動信息進(jìn)行更加全面地建模,以信息互補(bǔ)的方式為人體動作識別提供更加全面的特征刻畫和描述,進(jìn)而提高動作識別的精度。
目前基于多模態(tài)數(shù)據(jù)的人體動作識別方法,在訓(xùn)練和測試預(yù)測過程中均需要多模態(tài)數(shù)據(jù)作為識別模型的輸入。然而在實(shí)際情況中,測試數(shù)據(jù)所能夠獲得的模態(tài)類型往往不夠全面,有可能由于采集條件所限而導(dǎo)致某一模態(tài)的數(shù)據(jù)缺失,從而致使這些識別模型的預(yù)測精度大幅下降或由于數(shù)據(jù)模態(tài)不足而無法正常工作。
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明目的在于提供了基于知識蒸餾與對抗學(xué)習(xí)的多模態(tài)人體動作識別方法,解決了現(xiàn)有基于多模態(tài)數(shù)據(jù)的人體動作識別技術(shù)中,由于測試數(shù)據(jù)中存在模態(tài)丟失現(xiàn)象而導(dǎo)致模型識別性能顯著下降、甚至無法正常工作的問題;具有在測試環(huán)境中抗模態(tài)丟失的能力和靈活的模態(tài)適應(yīng)性的特點(diǎn)。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
基于知識蒸餾與對抗學(xué)習(xí)的多模態(tài)人體動作識別方法,包括以下步驟:
步驟1,輸入多模態(tài)人體動作訓(xùn)練數(shù)據(jù):
輸入數(shù)據(jù)包括RGB模態(tài)和Depth模態(tài),其訓(xùn)練樣本分別表示為i=1,2,…,N,訓(xùn)練樣本數(shù)為N;
步驟2,針對各模態(tài)數(shù)據(jù),分別訓(xùn)練單模態(tài)動作識別模型,本步驟具體包括:
S201,對每個模態(tài)的訓(xùn)練數(shù)據(jù),分別構(gòu)建深度神經(jīng)網(wǎng)絡(luò)識別模型和其中,μ和ν分別表示RGB模態(tài)和Depth模態(tài)下識別網(wǎng)絡(luò)的參數(shù)集;
S202,以交叉熵作為網(wǎng)絡(luò)預(yù)測與真實(shí)One-Hot編碼標(biāo)簽的誤差度量函數(shù),采用隨機(jī)梯度下降算法進(jìn)行網(wǎng)絡(luò)參數(shù)優(yōu)化訓(xùn)練,獲得最優(yōu)參數(shù)集和
步驟3,多模態(tài)識別模型知識蒸餾集成,本步驟具體包括:
S301,構(gòu)建多模態(tài)集成學(xué)生網(wǎng)絡(luò)Sθ,其中θ為網(wǎng)絡(luò)的參數(shù)集;
S302,將深度神經(jīng)網(wǎng)絡(luò)識別模型和做為教師網(wǎng)絡(luò),通過知識蒸餾與對抗學(xué)習(xí)方式來訓(xùn)練Sθ,獲得最優(yōu)參數(shù)集
步驟4,分類預(yù)測:
在測試階段,僅需將RGB模態(tài)的測試樣本輸入到網(wǎng)絡(luò)中,網(wǎng)絡(luò)輸出即為對未知類別樣本的類別預(yù)測概率。
所述步驟S201中深度神經(jīng)網(wǎng)絡(luò)識別模型和的網(wǎng)絡(luò)結(jié)構(gòu)如下:
網(wǎng)絡(luò)和采用相同的網(wǎng)絡(luò)架構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)均為SlowFast網(wǎng)絡(luò);殘差網(wǎng)絡(luò)ResNet-50作為SlowFast的骨干網(wǎng)絡(luò);各網(wǎng)絡(luò)的初始參數(shù)值均為SlowFast網(wǎng)絡(luò)在Kinetics-400數(shù)據(jù)集上的訓(xùn)練權(quán)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011123560.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種錐形擋圈自動成形生產(chǎn)線
- 下一篇:一種中藥材研磨裝置
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強(qiáng)度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)





