[發明專利]一種基于多平面圖像型參數編碼的虛擬視點合成方法在審
| 申請號: | 202211258245.5 | 申請日: | 2022-10-14 |
| 公開(公告)號: | CN115578474A | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 齊一凡 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06T9/00 | 分類號: | G06T9/00;G06N3/04;G06N3/08 |
| 代理公司: | 北京保識知識產權代理事務所(普通合伙) 11874 | 代理人: | 李慧 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 平面 圖像 參數 編碼 虛擬 視點 合成 方法 | ||
本發明公開了一種基于多平面圖像型參數編碼的虛擬視點合成方法,屬于視點合成技術領域;一種基于多平面圖像型參數編碼的虛擬視點合成方法,采用MPI型參數編碼方法為網絡增加了額外的可學習的編碼參數,減少網絡的訓練時間,提升網絡的時間效率;具體包括以下內容:S1、基于多層感知器構建顏色預測網絡和視點效果預測網絡;S2、利用顏色預測網絡預測點的透明度值和RGB參數:S3、利用視點效果預測網絡預測點的與視點相關的基函數;S4、基于S2中預測得到的點的透明度值和RGB參數以及S3中預測得到的基函數,將其經過合并操作得到最終合成結果圖像。
技術領域
本發明涉及視點合成技術領域,尤其涉及一種基于多平面圖像型參數編碼的虛擬視點合成方法。
背景技術
視點合成問題首先使用不同視角的一個或多個相機拍攝同一個場景,然后利用獲得的一個或者多個視角的圖像合成新的虛擬視角的圖像。視點合成在計算機視覺領域是一個經典的問題,多年來一直被各國研究人員關注。對于它的研究也推動了許多以它為基礎的研究和應用的發展,比如虛擬漫游,汽車導航和遠程手術等。隨著深度學習技術的發展,神經渲染方法在視點合成問題中展示了其優勢并越來越受到關注。MILDENHALL B,SRINIVASAN P P,TANCIK M等.NeRF:Representing Scenes as Neural Radiance Fieldsfor View Synthesis[J].Lecture Notes in Computer Science(including subseriesLecture Notes in Artificial Intelligence and Lecture Notes inBioinformatics),2020:405–421.DOI:10.1007/978-3-030-58452-8_24.中提出一種熱門的神經渲染方法,它首先沿光線采樣點,并得到點的坐標和觀察方向。之后使用頻率編碼方法編碼點的坐標和觀察方向并將編碼后的結果輸入多層感知器(Muti-Layer Perception,MLP)來預測點的顏色和體積密度。最后使用體積渲染方法將預測的顏色和體積密度合成目標圖像。雖然NeRF取得了優秀的合成新視圖的質量,但是它的訓練時間需要一到兩天。WIZADWONGSA S,PHONGTHAWEE P,YENPHRAPHAI J等.NeX:Real-time View Synthesis withNeural Basis Expansion[J/OL].Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,2021:8530–8539.http://arxiv.org/abs/2103.05606.DOI:10.1109/CVPR46437.2021.00843.中使用多平面圖像(Multi-plane image,MPI)來建模三維場景。MPI由一組位于參考攝像機坐標系前的固定深度處的半透明平行平面組成,其中每個平面存儲點的RGB值和透明度值,以描述相應深度處的場景外觀。NeX沒有使用原始MPI在平面上存儲靜態RGB值的方法,而是使用每個點與視點有關的基函數和其RGB系數的線性組合來建模與視點有關的光照效果。它同樣首先將點的坐標和觀察方向進行頻率編碼。之后將點坐標的編碼結果輸入一個MLP來預測點的透明度值和RGB系數并且將點的觀察方向的頻率編碼結果輸入另一個MLP來預測視點有關的基函數。雖然NeX可以獲得優秀的合成結果,但是其在單個場景上的訓練時間仍然高達十多個小時。
造成訓練時間過長的一部分原因是兩者使用的頻率編碼方式給網絡學習提供的場景信息不夠全面。為了解決上述問題,本發明提出了一種基于多平面圖像型參數編碼的虛擬視點合成方法。
本發明采用MPI型參數編碼和頻率編碼的混合編碼方式。加入的MPI型參數編碼為網絡增加了額外的可學習的編碼參數,即增加了更為全面的場景信息。因此,本發明可以在幾小時內完成整個訓練過程并依舊獲得相似的優秀合成結果。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211258245.5/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





