[發明專利]基于特征融合與樣本增強的三維人體姿態估計方法有效
| 申請號: | 202010158977.1 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111428586B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 衛志華;崔嘯萱;趙才榮;臧笛 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V40/10;G06V20/64;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 融合 樣本 增強 三維 人體 姿態 估計 方法 | ||
1.一種基于特征融合與樣本增強的三維人體姿態估計方法,其特征在于,包括三個步驟:
步驟一:部位分類與像素回歸
采用基于候選區域的全卷積網絡,對圖片中人體進行身體部位分類與像素點三維坐標回歸;
步驟二:輔助網絡樣本增強
采用輔助網絡樣本增強算法,對沒有初始標注的樣本位置進行信號補充;具體步驟如下:
2.1利用原始訓練集樣本訓練一個輔助增強網絡,使其回歸學習到已標注像素點與生成的預測坐標之間的關系;輔助網絡采用全卷積結構進行訓練和預測,全卷積網絡構造流程如下:
步驟2.1.1將傳統卷積神經網絡的最后一層全連接層改為全卷積層,即全卷積化;
步驟2.1.2采用反卷積層對最后一個卷積層的特征圖進行上采樣,將卷積層輸出的特征圖還原成原始圖片大小;
反卷積也稱為分數步長卷積或者轉置卷積,在卷積神經網絡中常用于表示一種反向卷積上采樣方式;假設常規的卷積操作模式下的滑動步長為S,圖片大小為N1xN1,卷積核大小為N2xN2,則卷積后圖像的大小為:
(N1-N2)/S+1x(N1-N2)/S+1(4)
為了要讓經過卷積的結果回到卷積前的模樣,進行反卷積操作,在反向卷積的基礎上加上padding操作,輸出特征圖還原成原始圖片大小;
步驟2.1.3利用上一步驟2.1.2所述的上采樣操作對最后一層的特征圖進行上采樣得到原圖大小的分割,由于最后一層的特征圖太小,會損失很多細節;采用跳級結構對前幾層卷積層也同樣進行反卷積,并將有更富的全局信息的最后一層預測和有更多的局部細節的更淺層的預測結合起來,將各層反卷積后的特征圖進行結合,并利用插值補充細節;最后得到的輸出為上采樣到原圖的大小的結果,從而完成對整個圖像的像素級別預測;
2.2對未標記樣本進行一系列不同的幾何變換后,輸入訓練好的AE-Net網絡進行預測推斷;
2.3將不同變換生成的預測結果通過取平均值的方式進行融合,對每個未標注像素點生成預測的坐標,并部署在原大小的圖像域上,作為增強樣本的新標注;同時,在結果中剔除背景區域的預測,只保留對標記為人體的區域的預測;
2.4將原始樣本和增強樣本一同送入3D原模型中進行訓練,即可實現樣本的增強和補充;
步驟三:特征融合
將3D模型與現有2D姿態識別模型進行特征融合,從全局姿態的角度與局部回歸坐標發揮優勢互補性。
2.如權利要求1所述的基于特征融合與樣本增強的三維人體姿態估計方法,其特征在于,
步驟一:部位分類與像素回歸,具體為:
1.1首先將人體按照三維模型劃分為若干個不同的身體部位;
1.2采用數字圖像領域中的參數化方法,對每個身體部位塊進行二維展開和三維坐標參數化標注;
1.3采用改進的目標分割區域建議神經網絡對人體各身體部位進行關鍵點檢測和語義級別的像素分割。
3.如權利要求2所述的基于特征融合與樣本增強的三維人體姿態估計方法,其特征在于,
步驟一:
1.1采用人體樣本數據集,數據集中圖片包含場景復雜、不同形態、不同尺寸的目標人體;其中劃分訓練集和測試集
1.2將人體按照三維模型劃分為若干個不同的身體部位,并采用數字圖像領域中的參數化方法,對每個部位塊進行二維展開和三維坐標參數化標注,每個三角網格和它的uv平面上對應仿射變換關系;對于一個在x,y,z坐標系上的三維模型,將曲面的x、z坐標歸一化到一個半徑為r的圓柱面上;設3D模型其中m為自然數,其中xj∈R3是三維空間網格的定點位置;令U∈R2×m,則映射函數Ψ具有如下形式:
Ψ(xj)→uj????????????????????????(1)
Ψ-1(uj)→xj????????????(2)
uj∈U;
其中:參數h與v對照于上述uv平面中的水平方向與垂直方向;
1.3使用深度學習方法對標注后的樣本集進行訓練,采用改進的目標分割區域建議神經網絡對人體各部位進行關鍵點檢測和語義級別的像素分割;
首先,圖像由經典卷積神經網絡處理生成特征圖,得到特征圖后經過候選框生成網絡層,在RPN階段分別經過3X3和1X1的卷積得到若干個包含分數和坐標的結果,再結合預先定義的邊框,經過回歸修正等后處理得到候選框的精確坐標和大小;RPN網絡的代價函數定義如下:
其中,i表示第i個小窗口候選框,pi是第i個小窗口候選框為目標的預測概率,當候選框是正例等于1,反例等于0;ti是一個四維向量,表示預測邊界框的參數化坐標,表示和正例小窗口相關聯的真值邊界框;Lcls和Lreg分別表示分類和回歸的損失函數,Ncls、Nreg和λ為平衡參數;
接著,將圖像送入兩個通路:一個用于生成回歸框和預測類別;另一路在生成掩碼的基礎上,使用回歸系統來精確定位該身體部位內每一個像素的uv坐標;對于某一像素點,先分類并計算該像素所在具有最高后驗概率的身體部位,再使用回歸器將該點進行特定部位下的uv坐標參數化;在訓練過程中,身體部位的分類使用交叉熵損失,坐標回歸使用平滑L1損失;當像素在特定身體部位范圍內的時候,其回歸部分的loss才會作為被算入;平滑L1損失函數的定義公式如下:
經過上述網絡之后,實現人體各部位的關鍵點坐標預測和語義級別的像素分割;
步驟三:特征融合
將3D原模型與2D姿態識別模型兩個神經網絡得到的特征進行融合,將不同視角下的多尺度特征進行整合,從全局姿態的角度與局部回歸坐標發揮優勢互補性;算法步驟如下:
3.1首先,將原始模型與二維姿態識別模型進行連接,實現多任務交叉并行網絡結構;
3.2接著,從RoIAlign層輸出,后面分為兩個分支,分別進行姿態識別關鍵點檢測和原始的像素分類回歸,得到前者的關鍵點檢測任務特征圖及后者的分類和坐標任務的特征圖輸出,對應地得到兩路數據:第一路數據為2D識別中間輸出,第二路數據為3D識別中間輸出;
3.3將步驟3.2中兩路分支的輸出,和該兩路分支最后一層的特征圖即第三路和第四路數據,分別通過對應1×1的卷積核組成的卷積層,使四路數據轉換成同樣的維度,且該卷積層不改變數據尺寸,只改變數據深度;
3.4最后,將步驟3.3中四路數據轉換而來的不同尺度、但維度相同的特征圖進行元素級別的特征融合相加,之后送入全卷積層再次進行卷積,計算loss并得到最終優化后的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010158977.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:水稻苗床旋耕開溝起壟整平鎮壓復式作業機
- 下一篇:一種口鼻眼面罩





