[發明專利]具有深度學習的視頻幀合成有效
| 申請號: | 201780070280.5 | 申請日: | 2017-09-29 |
| 公開(公告)號: | CN110140147B | 公開(公告)日: | 2023-10-10 |
| 發明(設計)人: | 劉子緯;劉一鳴;A.阿加瓦拉 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06T3/40 | 分類號: | G06T3/40 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具有 深度 學習 視頻 合成 | ||
本公開提供了利用機器學習模型(例如,神經網絡)來提供視頻幀合成的系統和方法。具體地,本公開的系統和方法可以包括或以其他方式利用機器學習的視頻幀合成模型,以允許從視頻合成視頻幀。在一個具體示例中,視頻幀合成模型可以包括具有體素流層的卷積神經網絡,并且提供一個或多個合成視頻幀作為慢運動視頻的一部分。
技術領域
本公開一般涉及視頻幀合成(synthesis)。更具體地,本公開涉及具有深度學習的視頻幀合成。
背景技術
自然場景的視頻觀察一組復雜的現象;對象快速變形和移動,彼此遮擋和脫離(disocclude),場景照明改變,以及攝像機移動。視頻外觀的參數模型常常過于簡單,而無法對視頻進行精確建模、插值或外推。然而,視頻插值,即在現有幀之間合成視頻幀,是視頻和電影制作中的常見過程。相關的問題是視頻外推;通過合成未來視頻幀來預測未來。
對這些問題的傳統解決方案估計幀之間的光流,然后沿著光流矢量進行插值或外推。當光流準確時,這種方法效果良好,但當光流不準確時,會生成明顯的偽影。一種新的方法使用生成卷積神經網絡(convolutional neural network,CNN)直接幻化(hallucinate)合成視頻幀的RGB像素值。雖然這些技術很有前途,但直接合成RGB值是有挑戰性的,并且結果常常模糊不清。
發明內容
本公開的實施例的方面和優點將在以下描述中部分闡述,或者可以從描述中學習,或者可以通過實踐實施例來學習。
本公開的一個示例方面是針對一種用于視頻幀合成的計算機實施方法。該方法包括由一個或多個計算設備接收視頻。該方法包括由一個或多個計算設備將描述視頻的第一組順序幀數據輸入到機器學習的視頻幀合成模型中。該機器學習的視頻幀合成模型包括至少一個具有體素(voxel)流層的卷積神經網絡。該方法包括由一個或多個計算設備從視頻接收一個或多個合成幀。該一個或多個合成幀由機器學習的視頻幀合成模型輸出。該方法包括由一個或多個計算設備提供關于一個或多個合成幀的信息。
本公開的其它方面針對各種系統、裝置、非暫時性計算機可讀介質、用戶界面和電子設備。
參考以下描述和所附權利要求,將更好地理解本公開的各種實施例的這些和其他特征、方面和優點。合并在本說明書中并構成其一部分的附圖示出了本公開的示例實施例,并且與說明書一起用于解釋相關原理。
附圖說明
參考附圖,說明書中闡述了針對本領域普通技術人員的實施例的詳細描述,其中:
圖1A描繪了根據本公開示例實施例的執行視頻幀合成的示例計算系統的框圖。
圖1B描繪了根據本公開示例實施例的執行視頻幀合成的示例計算設備的框圖。
圖1C描繪了根據本公開示例實施例的執行視頻幀合成的示例計算設備的框圖。
圖2描繪了根據本公開示例實施例的示例視頻幀合成模型的圖。
圖3描繪了根據本公開示例實施例的體素流的前向和后向傳遞。
圖4描繪了根據本公開示例實施例的示例視頻幀合成模型的圖。
圖5描繪了根據本公開示例實施例的示例視頻幀合成模型的框圖。
圖6描繪了根據本公開示例實施例的執行視頻幀合成的示例方法的流程圖。
在多個圖中重復的附圖標記旨在標識各種實施方式中的相同特征。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780070280.5/2.html,轉載請聲明來源鉆瓜專利網。





