[發(fā)明專利]基于時空傳播層次編解碼器的視頻預測方法有效
| 申請?zhí)枺?/td> | 202110534056.5 | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN113422952B | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計)人: | 李平;張陳翰;王然;徐向華 | 申請(專利權(quán))人: | 杭州電子科技大學 |
| 主分類號: | H04N19/107 | 分類號: | H04N19/107;H04N19/30;H04N19/61;G06K9/62;G06V10/40;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 時空 傳播 層次 編解碼器 視頻 預測 方法 | ||
本發(fā)明公開了基于時空傳播層次編解碼器的視頻預測方法。本發(fā)明方法首先對給定的原始視頻進行采樣獲得幀序列并輸入至低層視覺記憶編碼器,得到低層視覺編碼特征和低層記憶狀態(tài)特征;然后分別利用時空傳播模塊從低層視覺編碼表示中提取時空編碼特征,以及通過高層語義編碼器提取高層語義特征;再將得到的低層視覺編碼特征、低層記憶狀態(tài)特征和高層語義編碼特征通過層次特征解碼器進行信息融合,輸出預測視頻幀。本發(fā)明方法不僅能夠?qū)⒌蛯右曈X記憶特征和高層語義特征相融合,并通過時空傳播模塊使得低層視覺信息沿時序方向傳播,還能利用視頻首幀的先驗知識一定程度上解決視頻幀模糊問題,從整體上提高預測視頻幀的清晰度和視覺質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺領(lǐng)域,尤其是視頻感知中的視頻預測技術(shù)領(lǐng)域,涉及一種基于時空傳播層次編解碼器的視頻預測方法。
背景技術(shù)
在互聯(lián)網(wǎng)+時代,每天都有成千上萬的視頻在各類終端設(shè)備上產(chǎn)生,視頻感知受到了學界和業(yè)界的廣泛關(guān)注,而視頻預測則是其中一個充滿挑戰(zhàn)而又具有較高應(yīng)用價值的視覺任務(wù)。該任務(wù)其旨在給定部分視頻段的情況下,生成后續(xù)時刻的視頻段。視頻預測在雷達氣象圖預測、交通流預測、機器人物體交互預測、無人駕駛等實際場景有著廣泛的應(yīng)用。例如,在無人駕駛環(huán)境中,傳統(tǒng)的雷達測距只能對近距離車輛交互情況進行判斷,而視頻預測能夠利用視覺信息對道路上的行人與車輛進行預測,輔助自動駕駛系統(tǒng)的駕駛操作,規(guī)避行人車輛,從而保障駕駛員和乘客的安全。視頻預測主要遇到的困難包括視頻中物體的外觀隨著時間和拍攝光照發(fā)生變化,長期預測造成的圖像模糊等等。
傳統(tǒng)視頻預測方法都是基于神經(jīng)元模型,研究者們通過改變神經(jīng)元間的連接方式和權(quán)重變化規(guī)則獲取更好的性能。但這類方法只能應(yīng)用于簡單符號組成的畫面,無法對真實視頻進行預測。近年來,以神經(jīng)網(wǎng)絡(luò)為主要研究對象的深度學習被廣泛應(yīng)用于計算機視覺的各個領(lǐng)域,促使許多研究者開始使用深度學習技術(shù)來解決視頻預測問題。比如研究者提出采用堆疊多個卷積長短期神經(jīng)網(wǎng)絡(luò)(ConvLSTM:Convolutional Long-Short TimeMemory)的方法,以此增強對時間和空間信息的學習能力,從而得到更清晰的預測結(jié)果,也有研究者通過往ConvLSTM中增加更多的模塊來提高視頻預測性能。另外,基于雙流的網(wǎng)絡(luò)架構(gòu)被廣泛地運用到視頻預測領(lǐng)域,其主要思想是將視頻分為內(nèi)容和動作兩個部分分別進行預測,再將兩部分融合得到最終預測視頻。同時,為了預測多個未來視頻幀,自遞歸方法被廣泛運用到視頻預測領(lǐng)域,將網(wǎng)絡(luò)生成的視頻幀作為輸入再次送入網(wǎng)絡(luò)當中,得到下一時刻的視頻幀,反復進行如上操作,以此實現(xiàn)多視頻幀預測。
上述方法的不足點主要表現(xiàn)在以下幾個方面:第一,堆疊多個ConvLSTM的方法沒有將學習到的低層視覺特征和高層語義特征很好地融合,沒有充分利用學習到的特征,導致預測結(jié)果仍然存在模糊的情況;第二,基于雙流架構(gòu)的視頻預測方法沒有將視頻的低層視覺特征在時序上進行有效的傳播,導致預測視頻中對象輪廓的位置不夠準確;第三,自遞歸方法通過將網(wǎng)絡(luò)生成的視頻幀再次送入網(wǎng)絡(luò)來實現(xiàn)多視頻幀的視頻預測,但網(wǎng)絡(luò)生成的視頻幀中存在誤差,它們會由于這種形式不斷累積,導致在多視頻幀預測后期出現(xiàn)模糊的情況。因此,為了緩解不同層次特征融合不夠充分、視頻對象輪廓位置不夠準確以及預測后期出現(xiàn)模糊等問題,迫切需要一種能融合不同層次特征,并提供更準確輪廓位置信息同時能緩解誤差累積的方法,從而提高視頻預測的準確性。
發(fā)明內(nèi)容
本發(fā)明的目的就是針對現(xiàn)有技術(shù)的不足,提供基于時空傳播層次編解碼器的視頻預測方法,不僅將低層視覺編碼特征與高層語義特征相融合,還能通過時空傳播機制對低層視覺信息的時空特性進行刻畫,同時利用視頻首幀為后續(xù)幀的預測提供先驗知識,從而獲得視覺內(nèi)容更加清晰的視頻預測幀。
本發(fā)明方法首先獲取原始視頻數(shù)據(jù)集合,然后依次進行如下操作:
步驟(1)對每個視頻進行采樣,獲得視頻幀序列,并將其輸入至低層視覺記憶編碼器中,輸出對應(yīng)的低層視覺編碼特征和低層記憶狀態(tài)特征;
步驟(2)將低層視覺編碼特征輸入至時空傳播模塊,輸出時空編碼特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學,未經(jīng)杭州電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110534056.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種時空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識化時空對象表達數(shù)據(jù)庫建立方法
- 一種基于時空密度波與同步的大型時空數(shù)據(jù)聚類算法GRIDWAVE
- 時空數(shù)據(jù)的存儲方法、查詢方法及存儲裝置、查詢裝置
- 一種云環(huán)境下時空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對碰撞方法和裝置
- 時空數(shù)據(jù)的異常檢測方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種可直接捕獲時空相關(guān)性的時空數(shù)據(jù)預測方法
- 多維時空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲介質(zhì)





