[發明專利]使用機器學習的圖像和視頻壓縮中的改進熵代碼化在審
| 申請號: | 201980087947.1 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN113287306A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 亞歷山大·博科夫;蘇輝 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | H04N19/11 | 分類號: | H04N19/11;H04N19/13;H04N19/14;H04N19/157;H04N19/176;H04N19/194;H04N19/593 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 機器 學習 圖像 視頻壓縮 中的 改進 代碼 | ||
機器學習被用于細化用于對視頻或圖像數據進行熵代碼化的概率分布。確定與視頻塊相關聯的符號(例如,諸如在編碼期間的量化的變換系數或諸如在解碼期間的來自于比特流的語法元素)的概率分布,并且從與視頻塊和/或鄰近塊相關聯的視頻數據中提取特征集。然后,使用機器學習對概率分布和特征集進行處理,以產生精細的概率分布。根據精細的概率分布,對與視頻塊相關聯的視頻數據進行熵代碼化。使用機器學習以細化用于熵代碼化的概率分布最小化要熵代碼化的符號與精細的概率分布之間的交叉熵損失。
背景技術
數字視頻流可以使用幀或靜止圖像的序列來表示視頻。數字視頻能夠被用于各種應用,例如包括視頻會議、高清視頻娛樂、視頻廣告或用戶生成的視頻的共享。數字視頻流能夠包含大量數據并消耗用于處理、傳輸或者存儲視頻數據的計算設備的大量的計算或通信資源。已提出各種方法來減少視頻流中的數據量,所述各種方法包括編碼或解碼技術。
發明內容
根據本公開的實施方式的用于將視頻塊編碼為比特流的方法包括確定針對視頻塊的量化的變換系數的概率分布。從視頻塊或者視頻塊的一個或者多個鄰近塊中的一個或者兩者相關聯的視頻數據提取特征集。使用機器學習來處理概率分布和特征集,以產生精細的概率分布。根據精細的概率分布對視頻塊的量化的變換系數進行熵編碼以產生編碼的視頻塊。然后將編碼的視頻塊輸出到比特流。
根據本公開的實施方式的用于從比特流解碼編碼的視頻塊的方法包括從比特流得出表示編碼的視頻塊的語法元素。確定針對語法元素的概率分布。從自比特流中解碼的視頻數據中提取特征集。使用機器學習來處理概率分布和特征集,以產生精細的概率分布。根據精細的概率分布對語法元素進行熵解碼,以產生量化的變換系數。對量化的變換系數進行去量化以產生變換系數。對變換系數進行逆變換以產生預測殘差。重構預測殘差以產生解碼的視頻塊。然后將解碼的視頻塊輸出到輸出視頻流。
一種用于將視頻塊編碼為比特流的裝置包括存儲器和處理器。處理器被配置成執行存儲在存儲器中的指令。所述指令包括用于以下的指令:確定針對視頻塊的量化變換系數的概率分布,識別特征集,使用機器學習來處理概率分布和特征集以產生精細的概率分布,根據精細的概率分布對視頻塊的編碼的量化變換系數進行熵編碼以產生編碼的視頻塊,并將該編碼視頻塊輸出至比特流。基于與視頻塊相關聯的視頻數據、與視頻塊的一個或多個鄰近塊相關聯的視頻數據或用于對一個或多個鄰近塊進行編碼的代碼化模式中的一個或多個來識別特征集。
一種用于從比特流解碼編碼的視頻塊的裝置包括存儲器和處理器。處理器被配置成執行存儲在存儲器中的指令。這些指令包括用于以下的指令:確定表示編碼的視頻塊的語法元素的概率分布,其中從比特流得出語法元素,識別特征集,使用機器學習處理概率分布和特征集以產生精細的概率分布,根據精細的概率分布對語法元素進行熵解碼以產生量化的變換系數,對量化的變換系數進一步解碼以產生解碼的視頻塊,并將解碼的視頻塊輸出到輸出視頻流。基于與編碼的視頻塊相關聯的視頻數據、與編碼的視頻塊中的一個或多個鄰近塊相關聯的視頻數據或用于對一個或多個鄰近塊進行解碼的代碼化模式中的一個或多個來識別特征集。
根據本公開的實施方式的編碼器執行用于將視頻塊編碼為比特流的操作。操作包括基于從視頻塊或視頻塊的一個或多個鄰近塊中的一個或者兩者中提取的特征集,使用機器學習來細化視頻塊的量化變換系數的概率分布。對視頻塊的量化的變換系數進行編碼以產生編碼的視頻塊,其中對視頻塊的量化的變換系數進行編碼包括根據精細的概率分布對視頻塊的量化的變換系數進行熵編碼。編碼的視頻塊被輸出到比特流。
根據本公開的實施方式的解碼器執行用于從比特流解碼編碼的視頻塊的操作。該操作包括基于從自比特流中解碼的視頻數據中提取的特征集,使用機器學習來細化針對表示編碼視頻塊的語法元素的概率分布。對語法元素進行解碼以產生解碼視頻塊,其中對語法元素進行解碼包括根據精細的概率分布對語法元素進行熵解碼。解碼的視頻塊被輸出到輸出視頻流。
在對實施方式、所附權利要求書和附圖的以下詳細描述中公開本公開的這些和其它方面。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980087947.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





