[發明專利]一種基于RGBD相機的無監督位姿估計網絡構建方法有效
| 申請號: | 202010034081.2 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111260680B | 公開(公告)日: | 2023-01-03 |
| 發明(設計)人: | 楊宇翔;潘耀輝;高明煜;何志偉;黃繼業;董哲康 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06T7/20 | 分類號: | G06T7/20;G06T7/50;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 rgbd 相機 監督 估計 網絡 構建 方法 | ||
1.一種基于RGBD相機的無監督位姿估計網絡構建方法,其特征在于,具體步驟如下:
步驟(1):利用RGB-D相機獲取同場景彩色圖像和深度圖像
使用RGB-D相機得到連續彩色圖像和對應的連續深度圖像其分辨率為H*W,H和W分別為圖像的高和寬;選取t時刻彩色圖像與其臨近圖像每張彩色圖都是RGB三通道,將三張彩圖以的形式拼接成一個9通道的序列其中feature指的是經卷積層后得到的特征圖,0指的是第0次卷積操作;
步驟(2):基于位姿網絡學習幀間結構關系
位姿網絡由卷積神經網絡構成,在每一次卷積層后都經過一層ReLU激活層;首先9通道序列經過一層卷積核大小為7*7的卷積層,然后再是一層卷積核大小為5*5的卷積層,接下來是五層卷積核為3*3的卷積層,得到通道數為256的然后在經過一層卷積核大小為1*1的卷積核實現降維,得到通道數為12的最后將H和W維度取平均數成一個數字,得到12維的一組數字;將數字拆分為兩組6維數字,分別記為Tt→t-1、Tt→t+1;對于Tt→t-1,前三位表示到的坐標系平移,后三位是用歐拉角表示到的坐標系旋轉,Tt→t+1表示同理;
步驟(3):利用幀間相機位姿關系,結合深度圖的距離信息,利用幾何知識完成自監督:
對于圖像對應的深度圖為與t+1時刻對應的圖像之間的轉換關系為Tt→t+1;對于圖像上的某點像素所對應上的像素為由相機投影模型和幀間三角關系可得對應到的像素有關系:
①
其中K為相機的內參;根據映射到所對應的空間,得到每個像素值所對應到的大小,再根據像素值大小和初始像素的位置,使用可微分雙線性采樣插值的方法得到的對應的合成圖其中合成圖的每個像素值不是簡單的映射可微分雙線性采樣插值采取該像素四周的四個像素加權后得到;
②
其中i=top或者bottom,j=left或者right,代表周圍的四個像素,其中wij代表四個像素的權值,有∑wij=1;合成視圖后,與原來的視圖兩幀之間構成自監督,有損失函數:
③
以此達到利用depth圖合成新圖,構建光度誤差來達到自監督無外部監督的目的;
步驟(4):通過掩膜網絡來防止網絡訓練梯度被破壞
掩膜網絡與位姿網絡共享前五層卷積網絡,與位姿網絡一起訓練,采用上采樣經過四層4*4卷積層,再經過一層3*3的卷積層得到一個序列相對應的掩膜Itmask,對于每個像素所對應的掩膜Ptmask,則對于兩幀之間的損失函數由公式(3)變為
④
步驟(5):通過逆序列網絡來添加約束使網絡更準確地估計幀間相對位姿
使用正序圖像輸入時,輸入序列為逆序網絡的圖像輸入為一個好的位姿估計網絡不僅能估計正序時幀間的位姿關系,同樣在圖像序列以逆序輸入的時候,也能估計幀間位姿,以此增加約束;對一個三張圖片的序列,正序列時網絡得到的位姿為逆序列得到的位姿為理想情況下,有但網絡估計總有誤差,以此誤差增加約束,損失函數如下
⑤
表示正序列輸入時網絡估計的位移,表示逆序列輸入時網絡估計的位移,表示正序列輸入時網絡估計的旋轉,表示逆序列輸入時網絡估計的旋轉,ω表示權重;
以此增加約束來訓練位姿網絡,使網絡能有準確估計幀間相對運動的能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010034081.2/1.html,轉載請聲明來源鉆瓜專利網。





