[發明專利]嵌入SENet單元的無監督單目圖像深度圖生成方法有效
| 申請號: | 202010132191.2 | 申請日: | 2020-02-29 |
| 公開(公告)號: | CN111354030B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 王祝萍;戴新柯;張皓;黃超 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06T7/55 | 分類號: | G06T7/55;G06N3/0464;G06N3/0455;G06N3/088 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入 senet 單元 監督 圖像 深度 生成 方法 | ||
本發明涉及一種嵌入SENet單元的無監督單目圖像深度圖生成方法,具體為:構建深度估計網絡,將目標圖像輸入訓練好的深度估計網絡獲得目標圖像深度圖;所述的訓練過程采用相機位姿估計網絡;所述的深度估計網絡包括編碼器和解碼器,所述的編碼器包括7層編碼卷積模塊,所述的解碼器包括7層解碼卷積模塊和7層跳躍連接的跳躍卷積模塊,第1層跳躍卷積模塊包括依次連接的卷積層、ReLU激活層、卷積層和ReLU激活層,第2~7層跳躍卷積模塊中每塊跳躍卷積模塊包括殘差卷積單元和SENet單元。與現有技術相比,本發明具有精度高等優點。
技術領域
本發明涉及計算機視覺領域,尤其是涉及一種嵌入SENet單元的無監督單目圖像深度圖生成方法。
背景技術
近年來,人工智能技術開始廣泛地應用在人們日常生活的方方面面,其中,感知場景三維結構和解析場景幾何關系更是有助于智能體理解現實環境。在同時定位與建圖(SLAM)中,相比于單目SLAM,基于RGB-D的SLAM無論是跟蹤還是構圖都具有更穩健的魯棒性。視覺里程計作為SLAM的關鍵,可以使用相機的相鄰幀估計相機自運動,廣泛應用于高級駕駛員輔助系統、自動駕駛、智能車輛、機器人等領域。
現有的深度傳感器都有其自身的局限性且難以滿足工程應用的需求。LiDAR,基于結構光的深度傳感器和立體相機,成本高且僅提供遠距離物體的稀疏測量;基于結構光的深度傳感器(例如Kinect)對光照敏感且耗電,在強光下會產生很多噪音,有效測量距離短;立體相機需要較大的基線和仔細校準以實現精確的三角測量,這需要大量的計算并且通常會在無特征區域失敗。由上述內容可知,市場上現有的三維結構傳感器都有其各自的局限性,或因成本太高而無法推廣應用,或因傳感器的構造原理而無法獲得理想的深度視覺信息,因為從單視點圖像去預測其表達出來的三維場景結構是一個病態和模糊問題,與成像過程相反,給定一張某場景的單目彩色圖像,其存在很多個三維場景結構能來描述彩色圖像中表達出來的布局,因此前單視點圖像的深度估計任務遠落后于多視點圖像,單目圖像深度估計存在艱難挑戰。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種嵌入SENet單元的無監督單目圖像深度圖生成方法,提高了深度圖像估計精度。
本發明的目的可以通過以下技術方案來實現:
一種嵌入SENet單元的無監督單目圖像深度圖生成方法,具體為:構建深度估計網絡,將目標圖像輸入訓練好的深度估計網絡獲得目標圖像深度圖;
所述的訓練過程具體為:
采集包括若干視頻幀集的訓練集,構建相機位姿估計網絡,將每個視頻幀集中的參考幀Ia及Ia的相鄰幀Ib輸入相機位姿估計網絡獲得相機六自由度位姿變換關系Pab,將Ia和Ib輸入深度估計網絡對應獲得參考幀深度圖Da和相鄰幀深度圖Db,所述的Ia根據Pab通過形變獲得合成幀I′α,所述的Da根據Pab通過形變獲得合成深度圖所述的Da根據Pab通過投影和雙線性插值生成相鄰幀深度圖D′b,根據Ia、Ib、I′α、和D′b構建損失函數,利用損失函數訓練深度估計網絡。
進一步地,所述的損失函數L包括光度損失Lp、平滑損失Ls和幾何一致性損失Lgc,計算公式為:
L=Lp+αLs+βLgc
其中α、β是Ls在L中所占有的權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010132191.2/2.html,轉載請聲明來源鉆瓜專利網。





