[發(fā)明專利]一種基于時(shí)空上下文學(xué)習(xí)的手部姿態(tài)估計(jì)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201911235772.2 | 申請(qǐng)日: | 2019-12-05 |
| 公開(公告)號(hào): | CN111178142A | 公開(公告)日: | 2020-05-19 |
| 發(fā)明(設(shè)計(jì))人: | 李璽;吳一鳴 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時(shí)空 上下文 學(xué)習(xí) 姿態(tài) 估計(jì) 方法 | ||
1.一種基于時(shí)空上下文學(xué)習(xí)的手部姿態(tài)估計(jì)方法,其特征在于,包括以下步驟:
S1、獲取用于訓(xùn)練手部姿態(tài)估計(jì)的連續(xù)幀深度圖像數(shù)據(jù)集;
S2、在空間以及時(shí)間維度上使用空間網(wǎng)絡(luò)以及時(shí)間網(wǎng)絡(luò)分別建模對(duì)應(yīng)的上下文信息;
S3、根據(jù)輸入圖像使用融合網(wǎng)絡(luò)為時(shí)間空間模型的輸出進(jìn)行融合;
S4、建立手部姿態(tài)估計(jì)的預(yù)測模型;
S5、使用所述的預(yù)測模型對(duì)連續(xù)幀深度圖像進(jìn)行手部姿態(tài)估計(jì)。
2.如權(quán)利要求1所述的基于時(shí)空上下文學(xué)習(xí)的手部姿態(tài)估計(jì)方法,其特征在于,步驟S1中,獲取用于訓(xùn)練手部姿態(tài)估計(jì)的連續(xù)幀深度圖像數(shù)據(jù)集,包括N個(gè)訓(xùn)練視頻,每個(gè)訓(xùn)練視頻中含有連續(xù)幀深度圖像(X1,...,XT)train,以及預(yù)先標(biāo)注的手部關(guān)節(jié)點(diǎn)位置(J1,...,JT)train。
3.如權(quán)利要求2所述的基于時(shí)空上下文學(xué)習(xí)的手部姿態(tài)估計(jì)方法,其特征在于,步驟S2中,在空間以及時(shí)間維度上使用空間網(wǎng)絡(luò)以及時(shí)間網(wǎng)絡(luò)分別建模對(duì)應(yīng)的上下文信息具體包括:
S21、針對(duì)連續(xù)幀深度圖像(X1,...,XT)train中的任意一幀深度圖像,先將圖像縮放到128×128尺寸,再對(duì)其隨機(jī)旋轉(zhuǎn)和翻轉(zhuǎn),最后進(jìn)行歸一化使其縮放到-1到1之間,最終得到歸一化深度圖像(I1,...,IT)train作為算法輸入,隨后按照深度值將歸一化深度圖像轉(zhuǎn)換為128×128×8的三維體素表達(dá)(V1,...,VT)train后也作為算法輸入,并對(duì)(J1,...,JT)train做與(X1,...,XT)train對(duì)應(yīng)的旋轉(zhuǎn)和翻轉(zhuǎn)變換,得到
S22、為建??臻g上下文信息,對(duì)任意一幀深度圖像It以及三維體素表達(dá)Vt進(jìn)行空間網(wǎng)絡(luò)操作Fspatio(·),所述的空間網(wǎng)絡(luò)操作中,對(duì)It以及Vt均使用每一層加入ReLU激活函數(shù)的三層卷積操作以及最大池化操作進(jìn)行下采樣,分別得到特征以及隨后使用總層數(shù)為3的層級(jí)融合方法對(duì)兩個(gè)特征進(jìn)行融合,即:
m=1,2
其中:φm,t表示第m層的融合特征,以及為第m層的全連接函數(shù),以及均為第m層的全連接層參數(shù);再使用一個(gè)全連接操作回歸手部關(guān)節(jié)點(diǎn)坐標(biāo)
將以上空間網(wǎng)絡(luò)操作形式化表達(dá)為:
其中:Fspatio(·)表示空間網(wǎng)絡(luò)操作,Θspatio為空間網(wǎng)絡(luò)中的參數(shù);
S23、為建模時(shí)間上下文信息,對(duì)S21中得到的多幀深度圖像(I1,...,IT)train,逐幀進(jìn)行時(shí)間網(wǎng)絡(luò)操作Ftemp(·),所述的時(shí)間網(wǎng)絡(luò)操作中,先使用每一層加入ReLU激活函數(shù)的三層卷積操作以及最大池化操作進(jìn)行下采樣,得到特征(ψ1,...,ψT),其中深度圖像It的特征ψt=H(It;θc),H(·)為卷積操作,θc為卷積參數(shù);使用LSTM對(duì)得到的特征進(jìn)行時(shí)間維度的關(guān)聯(lián)建模,得到隱含層特征(h1,...,hT),t時(shí)刻的隱含層特征ht下式計(jì)算得到:
it=σ(Whi*ht-1+Wxi*ψt+bi)
ft=σ(Whf*ht-1+Wxf*ψt+bf)
ot=σ(Who*ht-1+Wxo*ψt+bt)
ct=(ft⊙ct-1)+(it⊙tanh(Whc*ht-1+Wxc*ψt+bc))
ht=ot⊙tanh(ct)
其中:it為t時(shí)刻輸入門的輸出,ft為t時(shí)刻的遺忘門的輸出,ot為t時(shí)刻輸出門的輸出,ct為t時(shí)刻的最終記憶,Whi、Wxi、Whf、Wxf、Who、Wxo、Whc、Wxc均表示權(quán)重,bt、bf、bt、bc均表示偏置;*和⊙分別表示矩陣乘法和矩陣對(duì)應(yīng)元素相乘操作,σ(·)表示sigmoid函數(shù);再使用一個(gè)全連接操作對(duì)拼接的特征[ψt,ht]進(jìn)行手部關(guān)節(jié)點(diǎn)坐標(biāo)的回歸;
將以上時(shí)間網(wǎng)絡(luò)操作形式化表達(dá)為:
其中:Ftemp(·)表示時(shí)間網(wǎng)絡(luò)操作,Θtemp為時(shí)間網(wǎng)絡(luò)中參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911235772.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種時(shí)空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識(shí)化時(shí)空對(duì)象表達(dá)數(shù)據(jù)庫建立方法
- 一種基于時(shí)空密度波與同步的大型時(shí)空數(shù)據(jù)聚類算法GRIDWAVE
- 時(shí)空數(shù)據(jù)的存儲(chǔ)方法、查詢方法及存儲(chǔ)裝置、查詢裝置
- 一種云環(huán)境下時(shí)空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對(duì)碰撞方法和裝置
- 時(shí)空數(shù)據(jù)的異常檢測方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種可直接捕獲時(shí)空相關(guān)性的時(shí)空數(shù)據(jù)預(yù)測方法
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 自動(dòng)創(chuàng)建上下文信息提供配置的系統(tǒng)
- 用于管理上下文的方法、系統(tǒng)和裝置
- 一種基于本體的上下文感知應(yīng)用平臺(tái)框架模型
- 一種基于上下文感知的智能家居系統(tǒng)
- 實(shí)現(xiàn)上下文感知業(yè)務(wù)應(yīng)用的方法和相關(guān)裝置
- 一種多推理引擎融合上下文感知系統(tǒng)及其工作方法
- 多個(gè)并發(fā)上下文虛擬演進(jìn)型會(huì)話管理(虛擬ESM)
- 一種基于異質(zhì)上下文感知的推薦方法
- 一種可提高上下文質(zhì)量的本體建模方法及裝置
- 微服務(wù)全局上下文控制方法及系統(tǒng)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





