[發明專利]一種基于幾何驅動的自監督人體3D姿態估計網絡訓練方法有效
| 申請號: | 201911301729.1 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111062326B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 李侃;李楊 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/774 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 幾何 驅動 監督 人體 姿態 估計 網絡 訓練 方法 | ||
本發明涉及一種基于幾何驅動的自監督人體3D姿態估計網絡訓練方法,屬于人工智能計算機視覺領域,能夠有效解決當前基于深度學習的人體3D姿態網絡訓練需要大量的人體3D關節點標注數據的技術問題。本發明方法,不依賴人體3D關節點標注數據,完全依靠幾何先驗知識,可以避免繁瑣的人體3D關節點的標注過程,所提出的變換重投影損失可以探索多視角一致性以訓練人體3D姿態估計網絡,可以在訓練過程中獲得更加準確的人體3D姿態預測結果,所提出的根節點位置估計網絡在3D姿態估計網絡訓練過程中保留重投影的2D姿態的尺度信息,可以在訓練過程中獲得更加準確的人體3D姿態預測結果,所提出的網絡預訓練方法可以幫助網絡訓練有效地收斂。
技術領域
本發明涉及一種人體3D姿態估計網絡訓練方法,特別涉及一種基于幾何驅動的自監督人體3D姿態估計網絡訓練方法,屬于人工智能計算機視覺領域。
背景技術
人體3D姿態估計,是計算機視覺領域一個長期被研究的問題。近年來,隨著深度學習在計算機視覺領域取得巨大的成功,人體3D姿態估計也逐漸被形式化為基于學習的框架。
基于深度學習的人體3D姿態估計方法,通常可以被分為兩類:第一類方法,使用端到端的卷積神經網絡,直接從輸入圖像中預測人體的3D關節點位置。第二類方法,采用兩階段的框架,首先使用現有的人體2D關節點檢測器獲得圖片中人體關節點的位置,然后通過2D-3D姿態提升網絡得到人體的3D姿態。為了學習到2D和3D關節點位置之間的映射關系,各種2D-3D姿態提升網絡被提出。此外,還有一些工作挖掘視頻的時間/運動信息以產生更加平滑的預測結果。
由于人體3D關節點的標注是一項勞動密集且成本昂貴的工作,弱/自監督方法最近受到了廣泛關注。一些研究人員探索相機幾何先驗知識來構監督信號,重投影損失是其中使用最廣泛的技術。然而,由于深度模糊問題的存在,僅使用重投影損失不能準確地約束關節點的深度。為了解決此問題,一些研究人員,通過在網絡訓練中使用人體3D骨架的骨骼長度約束或者對抗損失來解決此問題。然而,骨骼長度約束和對抗損失仍然需要一些額外的沒有2D和3D關節點對應關系的人體3D關節點標注。
發明內容
本發明的目的是為了克服現有技術的缺陷,解決目前基于深度學習的人體3D姿態網絡訓練,需要大量的人體3D關節點標注數據的問題,提出一種幾何驅動的自監督人體3D姿態估計網絡訓練方法。
本發明的目的是通過下述技術方案實現的。
一種基于幾何驅動的自監督人體3D姿態估計網絡訓練方法,包括下述步驟:
步驟1:采集人體姿態訓練數據,構造訓練數據集。
利用多個相機進行標定,記錄相機的內參和外參。對于場景中的同一個人,收集多個視角下相機拍攝的照片,構造訓練數據集。
步驟2:對訓練數據集中的人體2D關節點進行檢測。
在訓練數據集中,從同一時刻多個視角拍攝的圖片中,任意選取兩張。使用層級金字塔網絡,對兩張圖片中的人體2D關節點位置進行檢測。定義X1,分別為兩張圖片中人體的N個的關節點位置的2D坐標。
步驟3:設計一個人體3D姿態估計網絡,將人體2D關節點位置X1,X2投射到3D空間中,估計人體的相對3D姿態。
具體實現如下:
步驟3.1:設計一個3D姿態估計網絡該網絡包含四個殘差模塊,每個模塊均由2個全連接層(1024個通道)及其對應的批歸一化層、整流線性單位層和池化層組成。最后,3D姿態估計網絡連接了一個N×3通道的全連接層輸出N個關節點的3D位置坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911301729.1/2.html,轉載請聲明來源鉆瓜專利網。





