[發(fā)明專利]基于多模態(tài)無監(jiān)督圖像內容解耦的單目深度估計方法有效
| 申請?zhí)枺?/td> | 202010126070.7 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111445476B | 公開(公告)日: | 2023-05-26 |
| 發(fā)明(設計)人: | 王賀升;胡寒江;趙忠臣 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06T7/50;G06T7/90;G06T5/50;G06N3/0464;G06N3/088 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態(tài)無 監(jiān)督 圖像 內容 深度 估計 方法 | ||
本發(fā)明提供了一種基于多模態(tài)無監(jiān)督圖像內容解耦的單目深度估計方法,包括:步驟1:選取現實RGB圖像、虛擬RGB圖像和對應的深度圖構成訓練集;步驟2:根據訓練集構建多模態(tài)無監(jiān)督圖像遷移網絡模型,并利用生成對抗網絡對網絡模型進行訓練;步驟3:根據訓練集構建深度估計網絡模型并進行訓練;步驟4:對現實RGB圖像進行編碼,并根據深度估計網絡模型得到深度估計圖。本發(fā)明不依賴大量的真實RGB圖像對應的深度圖,且具有對不同季節(jié)、光照環(huán)境魯棒性強的特點。
技術領域
本發(fā)明涉及圖像識別和人工智能技術領域,具體地,涉及一種基于多模態(tài)無監(jiān)督圖像內容解耦的單目深度估計方法。尤其地,涉及一種應用于季節(jié)、光照等環(huán)境變化下的單目深度估計方法。
背景技術
室外單目深度估計在無人駕駛、移動機器人等領域有著重要的作用。近幾年,由于深層卷積網絡的推動,基于單目圖像的深度估計取得了重大的進展。然而室外場景的真實深度圖往往因獲取成本過高而難以獲取或者質量較低,使得難以直接利用室外單目圖像進行有監(jiān)督的深度估計訓練。
目前常用的算法有如下三類:
早期的馬爾可夫隨機場算法以及其它的概率圖模型,十分依賴人工描述符,使得相較于基于學習的算法表現較差。
基于監(jiān)督訓練的深層卷積深度預測器。基于多尺度深度網絡的單個圖像深度圖預測網絡,算法首次使用端到端的深層卷積深度估計網絡;基于深度卷積神經網絡的單目深度估計算法,算法利用神經網絡結合連續(xù)CRF像素的方法進行深度估計;用于單目深度估計的卷積神經網絡可視化算法,使用CNN從像素相關性的角度估計深度圖。但這些監(jiān)督訓練存在一個普遍的問題:室外圖像真實的深度圖往往因獲取成本過高而數量較少,使得監(jiān)督訓練成本過高。
以無監(jiān)督的方式訓練深度預測器,并輔以相機自身運動姿態(tài)的立體幾何信息進行訓練。結合幾何特征的無監(jiān)督單目深度估計卷積網絡算法,該算法用無監(jiān)督圖像重建方法進行深度估計;左右一致性的無監(jiān)督單目深度估計算法使用雙目圖像的左右一致性約束估計深度圖;自監(jiān)督單目深度估計算法使用相機自身運動位姿約束進行深度估計。然而這些方法需要額外輔助立體視覺信息進行訓練,同時沒有顯式解決在不同數據集、不同環(huán)境視角變化時的泛化問題。
針對以上單目深度估計存在的難點:室外圖像深度圖較為稀缺且質量不高、圖像存在季節(jié)、光照變化等問題。因此除了對深度預測器進行無監(jiān)督訓練外,數量多且質量高的虛擬數據集的深度圖能夠用來解決真實世界深度圖稀缺的問題。從虛擬圖像到真實圖像的圖像遷移存在兩個域之間的適應差距問題,當前從虛擬圖像到真實圖像的深度預測自適應方式是單一模態(tài)的,使得跨域圖像遷移是確定性的。然而現實中的圖像包括多樣且連續(xù)變化的光照、天氣和季節(jié),通常是多模態(tài)。基于確定性的圖像遷移方法在不同數據集或不同域泛化時會有問題,因為這類方法十分依賴遷移圖像的單一特定外觀。
為了解決上述難點,我們提出了一種新穎的基于多模態(tài)無監(jiān)督圖像遷移框架的內容潛變量解耦的多模態(tài)深度預測算法,該算法通過從虛擬圖像到真實世界圖像的內容編碼解耦、圖像跨域遷移進行單目深度估計。通過多模態(tài)無監(jiān)督圖像遷移,圖像的潛在特征跨域解耦成內容潛在特征編碼和風格潛在特征編碼。對于虛擬圖像域和真實圖像域,內容潛在特征具有域不變性,僅使用虛擬RGB和對應的深度圖像訓練模型就可以預測的真實世界圖像的深度圖。由于風格潛在特征具有隨機性且連續(xù)分布,因此內容特征具有多模態(tài)不變性且具有較強的泛化能力。
專利文獻CN110120071A(申請?zhí)枺?01910401869.X)公開了一種面向光場圖像的深度估計方法,包括如下步驟:解碼光場圖像得到4D光場數據、中心子孔徑圖像;由4D光場數據生成焦點堆棧圖像序列;對中心子孔徑圖像上的每個像素,繪制聚焦曲線;檢測聚焦曲線的局部對稱中心,得視差圖D1;由4D光場數據生成每個像素對應的水平方向、垂直方向的EPI圖像;檢測EPI圖像上直線的斜率,得到視差圖D2;基于中心子孔徑圖像和兩個視差圖,對每個像素繪制兩種聚焦曲線片段;計算兩種聚焦曲線片段與聚焦曲線的匹配度,由匹配度確定最終視差圖D;執(zhí)行基于能量最小化的深度優(yōu)化。
發(fā)明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010126070.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種口腔開口器及其控制方法
- 下一篇:一種新型太陽能電池的印刷工藝
- 一種基于卷積神經網絡的無監(jiān)督多模態(tài)子空間聚類方法
- 多模態(tài)時域信號模態(tài)分離、阻尼參數辨識方法及存儲介質
- 基于模塊化GAN的多模態(tài)MRI與多模態(tài)CT的轉換方法、系統(tǒng)及介質
- 一種增量無監(jiān)督多模態(tài)相關特征學習模型
- 一種基于自適應量化多模態(tài)哈希檢索方法及系統(tǒng)
- 一種可穿戴式多模態(tài)情緒狀態(tài)監(jiān)測裝置
- 多模態(tài)知識圖譜構建方法
- 一種認知障礙檢測模型及其訓練方法
- 一種基于帶噪標簽學習的無監(jiān)督跨模態(tài)哈希檢索方法
- 多模態(tài)數據缺失下的無監(jiān)督異常檢測方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





