[發明專利]使用深度生成性模型的視頻壓縮在審
| 申請號: | 202080020806.0 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN113574883A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | A·哈比比安;T·J·范羅森達爾;T·S·科恩 | 申請(專利權)人: | 高通股份有限公司 |
| 主分類號: | H04N19/13 | 分類號: | H04N19/13;G06N3/08;H04N19/20;H04N19/136;H04N19/90;H04N19/186 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 姚丹紅;陳煒 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 深度 生成 模型 視頻壓縮 | ||
1.一種用于壓縮視頻的方法,包括:
接收供壓縮的視頻內容;
通過由第一人工神經網絡實現的編碼器將所接收的視頻內容編碼到隱性碼空間中,所述編碼至少部分地基于與所接收的視頻內容有關的信息;
通過由第二人工神經網絡實現的概率性模型來生成經編碼視頻內容的經壓縮版本;以及
輸出所述經編碼視頻內容的所述經壓縮版本以供傳輸。
2.如權利要求1所述的方法,其中,與所接收的視頻內容有關的所述信息包括標識要在壓縮所接收的視頻內容的不同區域時使用的有損壓縮量的內容掩碼。
3.如權利要求2所述的方法,其中,所述內容掩碼包括通過標識多個訓練視頻中的前景內容和背景內容來訓練的二元掩碼。
4.如權利要求3所述的方法,其中,將所接收的視頻內容編碼到所述隱性碼空間中包括:
使用第一壓縮損失量來量化前景內容;以及
使用第二壓縮損失量來量化背景內容,其中所述第一壓縮損失量小于所述第二壓縮損失量。
5.如權利要求2所述的方法,其中,所述內容掩碼被訓練成使用遞歸卷積神經網絡來識別前景內容和背景內容。
6.如權利要求1所述的方法,其中,與所接收的視頻內容有關的所述信息包括來自從中捕獲所述視頻內容的固定環境的數據。
7.如權利要求6所述的方法,其中:
所接收的視頻內容包括在所述固定環境內捕獲的多個視頻剪輯,并且
將所接收的視頻內容編碼到所述隱性碼空間中包括:將所述多個視頻剪輯中的固定內容編碼成所述隱性碼空間中的相同碼。
8.如權利要求7所述的方法,其中,在所述固定環境內捕獲的所述多個視頻剪輯包括由位于固定位置中的相機捕獲的固定周圍場景的視頻剪輯。
9.如權利要求7所述的方法,其中,在所述固定環境內捕獲的所述多個視頻剪輯包括從移動平臺上的固定有利位置捕獲的視頻剪輯。
10.如權利要求1所述的方法,其中:
所述視頻內容包括多個通道,
所述多個通道除了由第一相機捕獲的視頻內容中的一個或多個亮度通道之外還包括一個或多個附加數據通道,并且
與所接收的視頻內容有關的所述信息包括所述多個通道中的模態之間的相關性。
11.如權利要求10所述的方法,其中,所述一個或多個附加數據通道包括一個或多個色彩通道并包括深度信息通道。
12.如權利要求10所述的方法,其中,所述一個或多個附加數據通道包括捕獲可見波長范圍內的數據的一個或多個通道以及捕獲所述可見波長范圍之外的數據的一個或多個通道。
13.如權利要求10所述的方法,其中,所述視頻內容包括從不同角度捕獲的主體的視頻,其中所述視頻是由所述第一相機和一個或多個第二相機捕獲的。
14.如權利要求1所述的方法,其中,所述概率性模型包括四維張量上的概率分布的自回歸模型,所述概率分布說明不同碼能夠被用于壓縮所述經編碼視頻內容的似然性。
15.如權利要求14所述的方法,其中,所述概率性模型基于四維張量來生成數據,其中所述四維張量的維度包括所接收的視頻內容的時間、通道和空間維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于高通股份有限公司,未經高通股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080020806.0/1.html,轉載請聲明來源鉆瓜專利網。





