[發(fā)明專利]一種特定軌跡下新視點(diǎn)合成視頻生成的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210439095.1 | 申請日: | 2022-04-25 |
| 公開(公告)號: | CN114782602A | 公開(公告)日: | 2022-07-22 |
| 發(fā)明(設(shè)計(jì))人: | 吉長江 | 申請(專利權(quán))人: | 北京影數(shù)科技有限公司 |
| 主分類號: | G06T15/00 | 分類號: | G06T15/00;G06T17/00;G06T7/73;G06T7/80;G06T7/38 |
| 代理公司: | 北京知呱呱知識產(chǎn)權(quán)代理有限公司 11577 | 代理人: | 杜立軍 |
| 地址: | 100176 北京市大興區(qū)北京經(jīng)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 特定 軌跡 視點(diǎn) 合成 視頻 生成 方法 系統(tǒng) | ||
本發(fā)明公開了一種特定軌跡下新視點(diǎn)合成視頻生成的方法及系統(tǒng),將基于三維重建SFM算法的稀疏重建結(jié)果3Dproxy文件進(jìn)行配準(zhǔn)和剛性變換處理,使其世界坐標(biāo)系的原點(diǎn)與物體的正中心達(dá)到重合,可以確保形成理想的正圓形拍攝軌跡,并且根據(jù)特定的觀察視點(diǎn)輸入特定的相機(jī)外參矩陣至神經(jīng)渲染模型輸出對應(yīng)視點(diǎn)的圖像,可實(shí)現(xiàn)按照某一軌跡進(jìn)行運(yùn)動(dòng)時(shí),得到精準(zhǔn)的、特定軌跡下的合成視頻,通過為用戶提供方便的軌跡操控界面,從而可以借助神經(jīng)渲染算法,完成特定軌跡下的新視點(diǎn)合成視頻生成任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻合成技術(shù)領(lǐng)域,具體涉及一種特定軌跡下新視點(diǎn)合成視頻生成的方法及系統(tǒng)。
背景技術(shù)
神經(jīng)渲染是近年來出現(xiàn)的一種自動(dòng)化內(nèi)容生成AI算法,可以被用于新視點(diǎn)合成、重光照等生成式AI任務(wù)。新視點(diǎn)合成任務(wù)是指,基于某一場景多角度的大量圖片數(shù)據(jù)、通過深度學(xué)習(xí)的方式,獲得該場景的神經(jīng)表示,并通過相應(yīng)的神經(jīng)渲染層進(jìn)行逼真的圖片生成;從而可以在指定的觀察角度條件下,生成相應(yīng)的圖像輸出,通過這種方式,理論上可以實(shí)現(xiàn)自由視點(diǎn)的視頻生成。
對于物品展示類的場景,經(jīng)常需要生成環(huán)繞拍攝的視頻內(nèi)容,換言之,需要虛擬相機(jī)圍繞物品的正中心做正圓軌跡的運(yùn)動(dòng)。但是,現(xiàn)有的神經(jīng)渲染新視點(diǎn)合成算法,例如ADOB,依賴于SFM步驟的稀疏重建的結(jié)果作為3D proxy,進(jìn)而完成最終的神經(jīng)渲染輸出,SFM步驟,例如使用Colmap,得到的3D proxy,例如PLY格式的3D模型文件,其世界坐標(biāo)系的原點(diǎn)與物體的正中心并不重合,這會(huì)造成,例如當(dāng)指定虛擬相機(jī)繞Y軸進(jìn)行旋轉(zhuǎn)時(shí),無法確保形成理想的正圓形拍攝軌跡;又例如當(dāng)指定虛擬相機(jī)從物體的正面開始,按照某一軌跡進(jìn)行運(yùn)動(dòng)時(shí),系統(tǒng)無法得知所需的語義上的物體正面究竟對應(yīng)什么樣的相機(jī)外參矩陣。目前常見的新視點(diǎn)合成算法,在效果展示上,多生成隨機(jī)觀看軌跡,不能進(jìn)行精準(zhǔn)的、特定軌跡下的視頻合成。
發(fā)明內(nèi)容
為此,本發(fā)明提供一種特定軌跡下新視點(diǎn)合成視頻生成的方法及系統(tǒng),以解決現(xiàn)有新視點(diǎn)合成算法不能進(jìn)行精準(zhǔn)的、特定軌跡下的視頻合成的問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
根據(jù)本發(fā)明實(shí)施例的第一方面,提出了一種特定軌跡下新視點(diǎn)合成視頻生成的方法,所述方法包括:
根據(jù)采集的物體正視和側(cè)視圖像獲取物體的三維包圍盒的中心點(diǎn)坐標(biāo),并獲取剛體變換矩陣,根據(jù)所述剛體變換矩陣能通過剛體變換將所述三維包圍盒的中心點(diǎn)移至世界坐標(biāo)系的原點(diǎn),且三維物體包圍盒的正前面平行于世界坐標(biāo)系的XOY平面、底面平行于世界坐標(biāo)系的XOZ平面;
對物體通過三維重建得到的三維稀疏點(diǎn)云模型根據(jù)所述剛體變換矩陣進(jìn)行配準(zhǔn)和變換處理;
根據(jù)處理后的三維稀疏點(diǎn)云模型以及訓(xùn)練集圖片對預(yù)先構(gòu)建的神經(jīng)渲染模型進(jìn)行訓(xùn)練;
將與用戶預(yù)設(shè)觀察視點(diǎn)對應(yīng)的設(shè)定相機(jī)外參矩陣輸入至訓(xùn)練的神經(jīng)渲染模型,輸出該觀察視點(diǎn)下的物體圖像;
獲取特定軌跡下不同觀察視點(diǎn)的多張物體圖像,并合成為視頻。
進(jìn)一步地,根據(jù)采集的物體正視和側(cè)視圖像獲取物體的三維包圍盒的中心點(diǎn)坐標(biāo),具體包括:
采集物體正視和側(cè)視圖像分別作為第一和第二參考幀,在所述第一和第二參考幀上標(biāo)記出物體的二維包圍框,根據(jù)所述二維包圍框獲取物體的關(guān)鍵角點(diǎn);
對所述關(guān)鍵角點(diǎn)進(jìn)行坐標(biāo)轉(zhuǎn)換得到對應(yīng)的在世界坐標(biāo)系下的3D坐標(biāo),根據(jù)關(guān)鍵角點(diǎn)的3D坐標(biāo)即可得到物體的三維包圍盒;
根據(jù)關(guān)鍵角點(diǎn)的3D坐標(biāo)計(jì)算得到物體的三維包圍盒的中心點(diǎn)坐標(biāo)。
進(jìn)一步地,對所述關(guān)鍵角點(diǎn)進(jìn)行坐標(biāo)轉(zhuǎn)換得到世界坐標(biāo)系下的3D坐標(biāo),具體包括:
通過三維重建SFM算法得到相機(jī)內(nèi)參矩陣K、對應(yīng)于第一和第二參考幀的相機(jī)外參矩陣M1、M2;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京影數(shù)科技有限公司,未經(jīng)北京影數(shù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210439095.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 視頻圖像轉(zhuǎn)換裝置和攝像裝置
- 多視點(diǎn)視頻的編碼、解碼方法、裝置和編解碼器
- 基于時(shí)域增強(qiáng)的視點(diǎn)合成預(yù)測多視點(diǎn)視頻編碼方法
- 一種多視點(diǎn)3D視頻合成方法
- 用于多視點(diǎn)視頻預(yù)測編碼的方法和裝置以及用于多視點(diǎn)視頻預(yù)測解碼的方法和裝置
- 一種多視點(diǎn)圖像產(chǎn)生方法、裝置、電子設(shè)備及存儲介質(zhì)
- 360度視頻傳輸?shù)挠脩粲^看視點(diǎn)序列預(yù)測方法
- 一種虛擬視點(diǎn)的視頻生成方法、裝置及設(shè)備
- 圖像處理裝置、車載照相機(jī)系統(tǒng)和圖像處理方法
- 一種多視點(diǎn)視頻的視點(diǎn)切換方法、服務(wù)器和系統(tǒng)





