[發明專利]一種基于全卷積神經網絡FCN的單目圖像深度估計方法有效
| 申請號: | 201710649934.1 | 申請日: | 2017-08-02 |
| 公開(公告)號: | CN107578436B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 朱沛賢;霍智勇 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06T7/55 | 分類號: | G06T7/55;G06K9/62;G06N3/04 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 徐瑩 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 fcn 圖像 深度 估計 方法 | ||
本發明公開了一種基于全卷積神經網絡FCN的單目圖像深度估計方法,包括步驟:獲取訓練圖像數據;將訓練圖像數據輸入全卷積神經網絡FCN,池化層依次輸出得到特征圖像;及從最后一個池化層開始將其輸出特征圖像進行放大處理,獲得與其前一池化層輸出特征圖像尺寸一致的特征圖像并將二者的特征圖像融合;從后向前依次對每個池化層的輸出特征圖像融合以獲得最終預測深度圖像;且訓練中利用隨機梯度下降法SGD對全卷積神經網絡FCN中的參數訓練;獲取需要預測深度的RGB圖像輸入訓練后的全卷積神經網絡FCN,獲得對應的預測深度圖像。本發明可以改善卷積過程中輸出圖像分辨率較低的問題,且采用全卷積網絡的形式,去除了全連接層,有效減少了網絡的參數量。
技術領域
本發明涉及一種基于全卷積神經網絡FCN的單目圖像深度估計方法,屬于計算機視覺的三維圖像重建的技術領域。
背景技術
從二維圖像中恢復三維深度信息是計算機視覺領域的一個重要問題,也是理解場景幾何關系的重要組成部分。圖像深度信息在機器人學,場景理解,三維重建等方面有著重要應用。圖像深度信息的獲取,旨在得到圖像中不同對象間的空間位置信息。目前獲取圖像深度信息的方式主要有兩種。一種是通過硬件設備直接獲取深度信息,如Kinect。另一種廣泛采用的方式是利用同一場景的單幅或者多幅RGB圖像序列進行深度估計,包括多視點、雙目和單視點。
單目圖像深度估計,即基于單視點圖像的深度估計,和傳統的基于多視點以及雙目立體匹配的方法不同,它只利用一個視點的視頻序列和圖像來進行深度估計。因為現實生活中絕大部分應用場景均提供單視點的數據,所以單目圖像深度估計更貼近實際的應用需求。但由于單視點圖像能提供的信息相對缺乏,因此單目圖像深度估計是個比較困難的任務。目前,單目圖像深度估計可大致分為兩類:基于視覺線索和基于機器學習。
基于視覺線索的方法是受人類通過各種視覺線索來感知深度的啟發而提出來的。常用的深度線索如運動、陰影、幾何假設等。但是這類方法有嚴格的使用條件。如運動恢復結構(Structure From Motion,SFM),要求必須存在攝像機的運動;陰影恢復形狀(Shapefrom shading)則要求物體表面具有同一分布的顏色和紋理;而利用盒子模型來推斷出房間的空間布局的方法也由于其固有的約束,只能建模特定的場景結構而無法應用到一般的場景。
隨著RGB-D圖像數據能從激光或深度攝像機中容易獲取后,以數據為驅動的基于機器學習的方法開始普及。由于這種算法不受特定的場景條件的限制,具有較好的適用性,因而得到了廣泛的研究。Saxena A將深度估計表示成多尺度的馬爾可夫隨機場(MarkovRandom Filed,MRF)的有監督學習問題;Ladicky L提出了一個像素分類器來聯合預測語義標簽和深度信息,證明了聯合二者可以促成彼此的效果;Liu M用超像素來建模圖像區域,并提出離散連續優化的方法來進行深度估計;Zhuo W在Liu M的基礎上通過整合中間層級區域和全局場景布局進行了改進。然而,這類方法多采用手工設計的特征,特征選取的優劣直接影響著模型結果的精度。
近年來,機器學習的分支——深度學習(Deep Learning)得到了快速發展,結合深度學習的單目圖像深度估計方法開始得到關注。
Eigen D運用了一個兩尺度的卷積網絡(Global Coarse-Scale Network,LocalFine-Scale Network)分別整合圖像全局和局部細節兩方面來直接預測深度,但結果深度圖像精度低,對細節方面表現較差。之后,Eigen D進行了改進,在原有網絡基礎上增加了另外一個尺度Higher Resolution,以此網絡為結構基礎,通過稍微的修改和損失函數的設計可以分別完成深度估計、表面法線、語義標簽的任務,效果也有了較大提升;Li J在Eigen D的基礎上改進了各尺度網絡間的特征信息傳遞,通過加入跳轉層來融合各尺度網絡間的中間層特征圖,并引入像素的相對深度限制,最終提高了結果深度圖的精度。但基于多尺度網絡的方法需要大量的訓練數據,而且各尺度網絡的聯合訓練收斂較慢。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710649934.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種灑水角度可調節的灑水車
- 下一篇:集熱電污水處理于一體的灑水車





