[發明專利]一種基于單張RGB圖像的雙流多尺度手部姿態估計方法在審
| 申請號: | 202110273215.0 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113052030A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 王立春;馬勝蕾;李敬華;孔德慧;王少帆;尹寶才 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06T3/40;G06F17/16 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 單張 rgb 圖像 雙流 尺度 姿態 估計 方法 | ||
本發明涉及一種基于單張RGB圖像的雙流多尺度手部姿態估計方法,用于解決單張RGB圖像中自遮擋、近鄰關節預測歧義問題。本發明是以RGB圖像作為輸入,利用深度神經網絡提取單張圖像的特征并得到手部關節2D姿態初始坐標,利用雙分支網絡進行2D姿態估計,得到兩路手部關節2D姿態坐標;對于兩路2D姿態坐標,利用雙分支的多尺度語義圖U?Net網絡分別估計兩路手部關節的3D坐標,然后再將兩路3D坐標加和求平均,最終輸出手部關節的3D坐標。本發明基于手的不同拓撲結構,更好的利用了關節之間的信息,最終實現高精度的手部姿態估計。
技術領域
本發明屬于計算機視覺領域,具體涉及一種針對RGB圖像的基于雙流多尺度網絡的手部姿態估計方法。
背景技術
人與人之間的日常交際過程中,自然語言、書面語言和肢體語言是三個最為主要的表達方式,但是前兩者均會受到地域、國家、種族、文化的限制,而肢體語言不僅靈活多變,能夠表達人們一些基本的意圖,并且直觀易懂,不容易產生歧義。因此,肢體語言逐步受到人機交互研究者的青睞。而人類的雙手更是肢體語言表達時最為重要的部分之一,能夠傳達豐富的信息,所以,讓計算機讀懂人類的手所傳達的信息是有價值而且有必要的。
手勢是人類與外界傳遞信息的主要方式,由于它的靈活自由和復雜多變,手勢動作包含了大量的有用信息,手承擔了生活中的絕大多數如交流、操作等工作。眾所周知,絕大多數機器的操作都是通過手來操作完成的。因此,無論是自然人機交互,還是為機器人傳遞人手操作經驗,首先需要做的是估計人手的姿態,并將手的姿態信息傳遞給機器設備,進而進行人機交互。
目前手姿態估計的方法大致分為兩個階段,首先輸入圖像估計出手的2D姿態,然后再通過2D姿態回歸手的3D姿態。根據輸入圖像的種類可以將手姿態估計大致分為三類:1)根據深度圖像進行手部姿態估計:傳統上基于深度圖像的方法是手部姿態估計的主要方法。深度圖像包含一定的深度信息,在進行3D姿態回歸過程中能夠更好的得到手部關節的三維信息,但是現階段的深度攝像機的成像范圍十分有限,而且質量不夠高,會給依賴深度圖像作為輸入的手部姿態估計方法帶來很大影響;同時深度圖像在實際中的應用不多,通常人們很難獲得深度圖像。2)根據多張RGB圖像進行手部姿態估計:與基于深度圖像的方法相比,基于多張RGB的圖像獲取比較容易,同時從不同視圖拍攝的多個RGB圖像包含豐富的3D信息,因此,有些方法將多幅圖像作為輸入,以減輕咬合問題。此方法雖能夠得到一個較高的精度且能夠有效的解決手的自遮擋問題,但是所需要的訓練、測試資源較大,且數據集的采集也比較復雜。3)根據單張RGB圖像進行手部姿態估計:與上述兩種方法相比,單張RGB圖像更容易獲取,更實用,目前基于RGB單張圖像的手勢姿態估計廣受關注。但是僅從單張RGB圖像估計三維手部姿態,因為輸入深度信息的缺失,面臨更大的挑戰性。手勢姿態估計方法通常包括兩個階段,分別是基于輸入圖像估計手的2D姿態,以及通過2D姿態回歸手的3D姿態。
影響手勢姿態估計的因素包括部分手勢存在自遮擋現象、某些近鄰關節在3D姿態回歸時存在預測歧義等,本發明針對這些問題開展工作。
發明內容
本發明針對手勢自遮擋、近鄰關節預測歧義、傳統圖卷積在每個節點共享權重從而缺少語義信息這三個問題,從手勢姿態估計的兩個階段著手,提出了改進的手部姿態估計方法。包括:提出基于兩種拓撲結構的雙流手勢姿態估計方法,解決手勢自遮擋問題;提出多尺度U-net的3D手勢姿態回歸方法,解決鄰近關節在回歸時預測歧義的問題;首次引入語義圖卷積網絡到手姿態估計問題,使每個關節的節點權重不同,從而有力描述了各關節的語義信息,綜上提升了2D姿態估計和3D姿態回歸的精度。具體技術方案如下:
步驟1)提取單張圖像的特征并得到手部關節2D姿態初始坐標;
步驟2)利用雙分支網絡進行2D姿態估計,得到手部關節2D姿態準確坐標,所述的雙分支網絡具有結構相同的兩路分支;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110273215.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種光學元件全口徑鍍膜裝置及其方法
- 下一篇:一種移動投料裝置的遠程控制系統
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





