[發(fā)明專利]一種利用長短期信息融合的視頻三維人體姿態(tài)估計算法在審
| 申請?zhí)枺?/td> | 202011092625.7 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112215160A | 公開(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計)人: | 曾鳴;鄧文晉 | 申請(專利權(quán))人: | 廈門大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 廈門南強之路專利事務(wù)所(普通合伙) 35200 | 代理人: | 馬應(yīng)森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 利用 短期 信息 融合 視頻 三維 人體 姿態(tài) 估計 算法 | ||
一種利用長短期信息融合的視頻三維人體姿態(tài)估計算法,涉及深度學(xué)習和人體姿態(tài)估計技術(shù)領(lǐng)域。對第一網(wǎng)絡(luò)輸入一段視頻,每一幀對應(yīng)的人體二維骨架姿態(tài)坐標,并組成序列;從人體二維骨架姿態(tài)坐標序列中抽取一定數(shù)量的關(guān)鍵幀,將其存儲在長期動作池中;將長期動作池中的動作插入到一個滑動窗口內(nèi)的人體二維骨架姿態(tài)坐標序列中,生成一個滑動窗口內(nèi)重構(gòu)的人體二維骨架姿態(tài)坐標序列;對第二網(wǎng)絡(luò)輸入一個滑動窗口內(nèi)重構(gòu)的人體二維骨架姿態(tài)坐標序列,輸出這段序列中心幀對應(yīng)的人體三維骨架姿態(tài)坐標;將第二網(wǎng)絡(luò)輸出的每個滑動窗口中心幀對應(yīng)的人體三維骨架姿態(tài)坐標進行拼接,輸出為視頻對應(yīng)的三維人體姿態(tài)序列。準確有效,對于視頻幀率波動適應(yīng)性好。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習和人體姿態(tài)估計技術(shù)領(lǐng)域,尤其涉及一種利用長短期信息融合的視頻三維人體姿態(tài)估計算法。
背景技術(shù)
三維人體姿態(tài)估計是從二維圖像中識別出人體所做出的三維動作的技術(shù)。中國專利CN111738220A公開一種三維人體姿態(tài)估計方法,包括:獲取n個視角的視頻幀序列;基于神經(jīng)網(wǎng)絡(luò)模型提取所述n個視角中的單幀視頻幀的初始化姿態(tài)估計;對所述初始化姿態(tài)估計進行單幀單視角的人體姿態(tài)估計,得到n個視角分別對應(yīng)的單視角姿態(tài)估計序列;對所述n個視角分別對應(yīng)的所述單視角姿態(tài)估計序列中具有相同時間戳的單視角姿態(tài)估計進行單幀多視角的人體姿態(tài)估計,得到多視角姿態(tài)估計序列;對所述多視角姿態(tài)估計進行多幀多視角的人體姿態(tài)估計,得到多視角多幀姿態(tài)估計。中國專利CN111428586A公開一種基于特征融合與樣本增強的三維人體姿態(tài)估計方法,首先,采用基于候選區(qū)域的全卷積網(wǎng)絡(luò),對圖片中人體進行身體部位分類與像素點三維坐標回歸;其次,采用輔助網(wǎng)絡(luò)樣本增強,對沒有初始標注的樣本位置進行信號補充;最后,將模型與現(xiàn)有效果良好的2D姿態(tài)識別模型進行特征融合,從全局姿態(tài)的角度與局部回歸坐標發(fā)揮優(yōu)勢互補性。
利用長短期信息融合的算法,將長期信息與短期信息進行融合,能有效利用時序信息,抵抗局部變化帶來的干擾,增強神經(jīng)網(wǎng)絡(luò)模型對于不同幅度的動作序列的適應(yīng)性,使其能夠快速、準確且有效地完成從視頻中提取人體三維骨架姿態(tài)坐標。
傳統(tǒng)的深度學(xué)習算法,或只進行單幀到單幀的三維人體姿態(tài)估計,缺乏時序信息間的關(guān)聯(lián)與約束,或只依賴于局部時序窗口進行三維人體姿態(tài)估計,缺乏對于不同動作變化的適應(yīng)性,無法勝任現(xiàn)實情況下復(fù)雜、多變的運動場景,實用價值受限。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)存在的上述問題,提供在高速運動的場景下,可以進行準確有效人體三維姿態(tài)估計,同時對于視頻的幀率波動具有較好適應(yīng)性的一種利用長短期信息融合的視頻三維人體姿態(tài)估計算法。
本發(fā)明包括以下步驟:
1)對第一網(wǎng)絡(luò)輸入一段視頻,輸出這段視頻每一幀對應(yīng)的人體二維骨架姿態(tài)坐標,并組成序列;
2)使用關(guān)鍵幀動作收集算法,從人體二維骨架姿態(tài)坐標序列中抽取一定數(shù)量的關(guān)鍵幀,將其存儲在長期動作池中;
3)使用長短期動作融合算法,將長期動作池中的動作插入到一個滑動窗口內(nèi)的人體二維骨架姿態(tài)坐標序列中,生成一個滑動窗口內(nèi)重構(gòu)的人體二維骨架姿態(tài)坐標序列;
4)對第二網(wǎng)絡(luò)輸入一個滑動窗口內(nèi)重構(gòu)的人體二維骨架姿態(tài)坐標序列,輸出這段序列中心幀對應(yīng)的人體三維骨架姿態(tài)坐標;
5)將第二網(wǎng)絡(luò)輸出的每個滑動窗口中心幀對應(yīng)的人體三維骨架姿態(tài)坐標進行拼接,輸出為視頻對應(yīng)的三維人體姿態(tài)序列。
在步驟1)中,所述第一網(wǎng)絡(luò)為二維人體姿態(tài)估計網(wǎng)絡(luò);所述二維人體姿態(tài)估計網(wǎng)絡(luò)分為特征提取模塊和坐標回歸模塊。
在步驟2)中,所述關(guān)鍵幀動作收集算法采用漸進插入的貪心算法,具體步驟可為:
(1)構(gòu)建一個特定容量、特定相似度閾值的長期動作池;
(2)輸入人體二維骨架姿態(tài)序列,將第一幀直接存入長期動作池中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學(xué),未經(jīng)廈門大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011092625.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





