[發(fā)明專利]一種基于強化學(xué)習(xí)的視頻序列二維姿態(tài)估計方法有效
| 申請?zhí)枺?/td> | 202110480110.2 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113205043B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設(shè)計)人: | 陳軍;馬憲政;劉濤榕;常路 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V20/40;G06V10/774;G06K9/62;G06N20/00 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學(xué)習(xí) 視頻 序列 二維 姿態(tài) 估計 方法 | ||
本發(fā)明提供了一種基于強化學(xué)習(xí)的視頻序列二維姿態(tài)估計方法,首先構(gòu)建強化學(xué)習(xí)智能體的整體狀態(tài),然后輸出動作,從當(dāng)前視頻序列中選擇一個標(biāo)注幀和一個未標(biāo)注幀,兩幀通過姿態(tài)估計器得到姿態(tài),并被一起送入動作轉(zhuǎn)換器完成動作轉(zhuǎn)換并更新姿態(tài)估計器和動作轉(zhuǎn)換器,最后根據(jù)姿態(tài)估計器的提升算出智能體的回報,并更新優(yōu)化智能體。本發(fā)明利用強化學(xué)習(xí)和主動學(xué)習(xí)的思想,通過充分挖掘視頻中的時序信息選出最有信息量的視頻幀對,從而可以很好地抵御人體自遮擋,運動模糊等問題,可提高視頻姿態(tài)估計方法的準(zhǔn)確性和魯棒性。本發(fā)明不同于常見的監(jiān)督學(xué)習(xí)方案,僅使用少量的視頻標(biāo)注幀來完成姿態(tài)估計器的學(xué)習(xí),較為明顯地降低了人工標(biāo)注量,從而實用性更高。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻二維人體姿態(tài)估計技術(shù)領(lǐng)域,具體涉及一種基于強化學(xué)習(xí)的視頻序列二維姿態(tài)估計方法。
背景技術(shù)
視頻人體姿態(tài)估計一直備受計算機視覺界研究者的關(guān)注,是計算機視覺領(lǐng)域中一個重要的研究方向,其核心研究內(nèi)容是從單個或多個視頻序列中檢測人體(包括運動分割與目標(biāo)分類),跟蹤以及對人體運動進行識別與理解(包括姿態(tài)估計與動作識別及其描述)。其中,單目視頻中人體姿態(tài)估計以期從單目視頻中分析人體圖像特征,進而估計人體二維姿態(tài)參數(shù),是視頻人體姿態(tài)估計中最復(fù)雜的研究分支之一。由于其涉及計算機視覺、模式識別以及人工智能等領(lǐng)域,是一個極具挑戰(zhàn)的跨學(xué)科研究技術(shù)。
目前,多目視頻中有標(biāo)記點的三維人體運動捕獲技術(shù)已經(jīng)較為成熟地被廣泛應(yīng)用于動畫制作、游戲和電影特效等領(lǐng)域中。但是,由于其對硬件設(shè)備要求較高、系統(tǒng)價格昂貴等原因并沒有在其他領(lǐng)域得到廣泛應(yīng)用。相對而言,單目視頻的人體姿態(tài)估計技術(shù)由于其信息采集方便、更廣泛的應(yīng)用前景以及對技術(shù)的更大挑戰(zhàn)逐漸成為了一個活躍的研究領(lǐng)域。除此之外,現(xiàn)有方法大都使用帶有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),而在視頻中對人體關(guān)鍵點進行逐幀標(biāo)注無疑是一件耗時費力的事情。視頻人體姿態(tài)估計主要的應(yīng)用領(lǐng)域包括虛擬現(xiàn)實與增強現(xiàn)實、智能人機交互、智能視頻監(jiān)控、游戲動畫與制作、體育運動視頻分析、輔助臨床診斷、基于內(nèi)容的視頻索引與檢索等,具有極為廣泛的應(yīng)用前景。
該問題最早的解決方案由Rohit Girdhar等人提出,將該問題分成兩個階段的問題,首先估計視頻里每一幀的關(guān)鍵點,之后再利用時序平滑的后處理方式來進一步使姿態(tài)估計結(jié)果更精確。之后有一部分學(xué)者Tomas Pfister等人受到視頻分析領(lǐng)域方法的啟發(fā),開始使用結(jié)合光流信息的卷積神經(jīng)網(wǎng)絡(luò)來傳遞姿態(tài)時序信息,主要利用視頻起始部分幀和高置信度的姿態(tài)估計幀的光流信息來估計其他視頻幀。然而估計的光流信息并不區(qū)分視頻幀的前景和背景信息,因此會限制該類方法的性能和準(zhǔn)確度。
另一些學(xué)者Georgia Gkioxari等人考慮使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的時序序列建模方法,在RNN的基礎(chǔ)上,提出采用幾何一致性約束來解決視頻幀中出現(xiàn)的圖像降質(zhì)問題,并受RNN思想的啟發(fā),提出使用時序卷積網(wǎng)絡(luò)TCN來建模視頻幀間的時序關(guān)系,取得了一定的成效。但該過程仍然需要大量人工標(biāo)注過的視頻幀來用于監(jiān)督訓(xùn)練,因此會較大程度限制其在實際生活中的應(yīng)用。
中國專利文獻CN104715493A公開了一種運動人體姿態(tài)估計的方法,采用中值濾波的方法對深度圖像數(shù)據(jù)進行預(yù)處理操作,并提出基于測地距離的迪杰斯特拉算法對人體像素進行部位標(biāo)定,最終使用基于K-均值聚類算法的區(qū)域特征點提取算法來定位人體骨架點,但該方案由于使用傳統(tǒng)算法,對人體的自遮擋,運動模糊等難點問題不具備較好的泛化性。
發(fā)明內(nèi)容
本發(fā)明提出一種基于強化學(xué)習(xí)的視頻序列二維姿態(tài)估計方法,用于解決或者至少部分解決現(xiàn)有技術(shù)的方法中姿態(tài)估計不夠準(zhǔn)確的技術(shù)問題。
為了解決上述技術(shù)問題,本發(fā)明提供了一種基于強化學(xué)習(xí)的視頻序列二維姿態(tài)估計方法,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110480110.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





