[發明專利]基于強化學習的無標簽六維物體姿態預測方法及裝置有效
| 申請號: | 202010191659.5 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111415389B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 季向陽;邵鍵準 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06T7/73 | 分類號: | G06T7/73;G06N3/092;G06N3/0895 |
| 代理公司: | 北京林達劉知識產權代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 標簽 物體 姿態 預測 方法 裝置 | ||
本公開涉及人工智能技術領域,尤其涉及一種基于強化學習的無標簽六維物體姿態預測方法及裝置。所述技術方案包括:獲取待預測的目標圖像,所述目標圖像為包括目標對象的二維圖像;根據所述目標圖像,采用預先訓練得到的姿態預測模型進行姿態預測得到預測結果,所述姿態預測模型是根據樣本圖像進行強化學習得到的模型;根據所述預測結果,確定所述目標對象的三維位置和三維方向。本公開實施例通過引入強化學習來訓練姿態預測模型,根據目標圖像采用預先訓練得到的姿態預測模型進行姿態預測,使得在沒有真實的姿態標注的情況下可以解決基于二維圖像的六維物體姿態估計的問題,保證了無標簽六維物體姿態預測的預測效果。
技術領域
本公開涉及人工智能技術領域,尤其涉及一種基于強化學習的無標簽六維物體姿態預測方法及裝置。
背景技術
六維物體姿態預測方法包括從一幅二維圖像中定位目標物體的三維位置和三維方向的方法。
相關技術中,六維物體姿態預測方法可以包括如下步驟:計算機設備獲取待檢測的二維圖像,在二維空間中比較目標物體的渲染對象和觀測對象,預測當前估計值與真實值之間的六維姿態差,從而進行六維物體姿態估計。
在上述方法中涉及真實的姿態標注,真實的姿態標簽標注對于當前實現姿態優化性能的方法至關重要。然而,真實的六維物體姿態標注的二維圖像的獲取過程相當復雜,極大地限制了上述方法的實現。目前尚未提供一種合適且精確的六維物體姿態預測方法。
發明內容
有鑒于此,本公開提出了一種基于強化學習的無標簽六維物體姿態預測方法及裝置。所述技術方案包括:
根據本公開的一方面,提供了一種基于強化學習的無標簽六維物體姿態預測方法,用于計算機設備中,所述方法包括:
獲取待預測的目標圖像,所述目標圖像為包括目標對象的二維圖像;
根據所述目標圖像,采用預先訓練得到的姿態預測模型進行姿態預測得到預測結果,所述姿態預測模型是根據樣本圖像進行強化學習得到的模型;
根據所述預測結果,確定所述目標對象的三維位置和三維方向。
在一種可能的實現方式中,所述根據所述目標圖像,采用預先訓練得到的姿態預測模型進行姿態預測得到預測結果之前,還包括:
采用所述樣本圖像進行強化學習訓練得到所述姿態預測模型,所述姿態預測模型為基于馬爾可夫決策過程的模型。
在另一種可能的實現方式中,所述姿態預測模型包括基礎網絡和策略網絡,所述采用所述樣本圖像進行強化學習訓練得到所述姿態預測模型,包括:
通過所述基礎網絡從所述樣本圖像中提取所述目標對象的狀態信息,所述狀態信息包括觀測圖像、所述觀測圖像對應的真實掩模圖像框、渲染圖像和所述渲染圖像對應的渲染掩模;
將所述狀態信息輸入至所述策略網絡中輸出動作信息,所述動作信息用于指示所述目標對象的旋轉分布特征和平移分布特征;
根據所述動作信息對所述觀測圖像進行重新渲染;
在重新渲染后,根據二維空間中當前的渲染掩模和所述真實掩模圖像框之間的差別計算獎勵值;
根據至少一組樣本數據組對所述策略網絡進行更新,所述樣本數據組包括所述目標對象的所述狀態信息、所述動作信息和對應的獎勵值。
在另一種可能的實現方式中,所述獎勵值包括差分獎勵值、目標達到獎勵值和集中獎勵值;
所述差分獎勵值用于指示所述當前的渲染圖像與所述觀測圖像之間的匹配程度,所述集中獎勵值用于指示所述當前的渲染圖像與所述觀測圖像之間在幾何位置上的匹配程度,所述目標達到獎勵值用于指示是否停止對所述策略網絡的更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010191659.5/2.html,轉載請聲明來源鉆瓜專利網。





