[發明專利]用于數字圖像、音頻或視頻數據處理的方法和設備在審
| 申請號: | 201911234128.3 | 申請日: | 2019-12-05 |
| 公開(公告)號: | CN111294614A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | E.胡格博姆;D.張;M.韋林 | 申請(專利權)人: | 羅伯特·博世有限公司 |
| 主分類號: | H04N21/2343 | 分類號: | H04N21/2343;H04N21/439;H04N21/4402;H04N21/233 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 畢錚;申屠偉進 |
| 地址: | 德國斯*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 數字圖像 音頻 視頻 數據處理 方法 設備 | ||
用于數字圖像、音頻或視頻數據處理的方法和設備。數字圖像數據、數字視頻數據或數字音頻數據增強的計算機實現方法以及編碼或解碼該數據特別用于傳輸或存儲的計算機實現方法,其中表示所述數字數據的部分的元素包括元素在多個數據元素的有序輸入數據中的位置的指示,多個元素取決于可逆線性映射被變換成表示,可逆線性映射將多個元素的輸入映射到表示,可逆線性映射包括至少一個自回歸卷積。取決于表示來修改表示以確定經修改的表示。傳輸和/或存儲表示。取決于表示來確定表示輸出數據的多個元素,其中表示取決于可逆線性映射的逆被變換。當確定經修改的表示時,取決于它確定表示輸出數據的多個元素,經修改的表示取決于可逆線性映射的逆被變換。
技術領域
本發明涉及一種用于數字圖像、音頻或視頻數據處理的方法和設備。特別地,本發明涉及一種用于基于生成建模對數字圖像、音頻或視頻數據的增強、傳輸或存儲的計算機實現的方法和設備。
背景技術
已經使用基于似然性的方法和非基于似然性的方法來進行生成建模。基于似然性的方法基于自回歸模型和生成流。
Tim Salimans, Andrej Karpathy, Xi Chen, 和Diederik P Kingma的“Pixel-cnn++: Improving the pixelcnn with discretized logistic mixture likelihoodand other modifications.”arXiv 預印本 arXiv:1701.05517, 2017 以及 Aaron vanden Oord, Nal Kalchbrenner, Lasse Espeholt, Oriol Vinyals, Alex Graves, 等人的“Conditional image generation with pixelcnn decoders”在《神經信息處理系統進展》(Advances In Neural Information Processing Systems) pp. 4790-4798, 2016公開了自回歸模型的各方面。
發明內容
在一個方面,提供了用于數字圖像、音頻或視頻數據的增強、傳輸或存儲的具有顯著改進性能的計算機實現的方法。該計算機實現的方法提供了特別是針對圖像變換、針對圖像識別、針對異常檢測和/或針對圖像驗證的改進的性能。附加地或可替換地,該計算機實現的方法提供對至少部分自主的車輛或機器人的控制。
在另一方面,提供了特別是根據該計算機實現的方法實現神經網絡的顯著改進的設計的對應設備。
一種用于數字圖像增強的計算機實現的方法包括:表示數字圖像像素的元素包括空間維度的指示,空間維度指示該像素在數字圖像中的位置,并且其中該元素包括通道維度的指示,通道維度指示該像素在數字圖像中的通道,其中表示數字圖像像素的多個元素取決于可逆線性映射被變換成表示,其中可逆線性映射將該多個元素的輸入映射到該表示,其中取決于該表示來修改該表示以確定經修改的表示,并且其中表示增強數字圖像像素的多個元素取決于經修改的表示被確定,其中經修改的表示取決于可逆線性映射的逆被變換,并且其中可逆線性映射包括至少一個自回歸卷積。自回歸卷積允許可逆線性映射的逆,并且為增強的圖像提供有效的數據處理。
有利地,該計算機實現的方法包括根據該方法處理數字視頻的多個數字圖像。這允許用于視頻數據的順序圖像處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于羅伯特·博世有限公司,未經羅伯特·博世有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911234128.3/2.html,轉載請聲明來源鉆瓜專利網。





