[發明專利]一種基于視頻圖像的未來幀預測方法及模型在審
| 申請號: | 201911089718.1 | 申請日: | 2019-11-08 |
| 公開(公告)號: | CN110839156A | 公開(公告)日: | 2020-02-25 |
| 發明(設計)人: | 趙志誠;蘇菲;杜麗 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | H04N19/149 | 分類號: | H04N19/149;H04N19/30;H04N19/533 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 圖像 未來 預測 方法 模型 | ||
本發明提出一種基于視頻圖像的未來幀預測方法及模型,屬于圖像模式識別領域。模型包括:記憶回溯模塊、記憶精煉模塊、特征融合模塊以及圖像預測模塊;方法包括:步驟1、順序讀取視頻幀序列,組成固定長度的視頻段序列;步驟2、將視頻段輸入記憶回溯模塊,記憶回溯模塊對輸入的視頻段進行空時特征提??;步驟3、對提取的空時特征通過記憶精煉模塊,抽象為更高層次的隱含特征;步驟4、將隱含特征與輸入的視頻段中的最后一幀基于二維神經網絡的多通道進行特征融合,最終輸出預測的圖像幀。本發明通過FFSPRE模型驗證了人腦預測未來空間特征的能力,通過實驗進一步證明了存在有一個通用的預測機制,能夠完成預測短時未來圖像的任務。
技術領域
本發明屬于圖像模式識別領域,尤其涉及基于深度學習的視頻圖像的生成技術。
背景技術
需要提前思考或預測下一步是什么,是我們日?,F實中經常出現的一種狀況。這些狀況可能會像試圖抓住飛向你的球一樣微不足道,或是避免被路上的汽車撞到一樣重要。無論具體情況如何,研究人員認為人腦中有一種機制,可以讓我們看到一系列事件中的下一步。
在測試這個圖像“預測”的實驗以前僅限于觀察動物視覺皮層中發生的事情?,F在,荷蘭拉德堡德大學的研究人員開發了一項實驗,其結果表明了人類的大腦不僅能夠快速形成未來運動的形象,而且大腦的視覺皮層也與過去的經驗相結合,以預測未來的發展。最有可能的是,它發展出了預測未來的能力,以促進更快的行動,這可能是生與死之間的差異。
未來預測對于實際生活中具有重要的現實意義。特別是對于駕駛輔助領域來說,未來幀預測是高級駕駛輔助(ADAS)/無人駕駛系統功能優化方面的潛在解決方法之一,如果能模擬駕駛員做出駕駛決策之前的基于視覺信息的預測機制并生成未來可能發生的場景圖像,就可以在一定程度上指導駕駛輔助/無人駕駛系統做出合理的駕駛決策,從而保證車輛完成正常的駕駛過程(參考文件[1]:Andrea,Palazzi,et al.Predicting theDriver's Focus of Attention:the DR(eye)VE Project.IEEE Transactions onPattern Analysis and Machine Intelligence(2018):1-1.)。
目前,基于深度學習方法主要可以使用兩種方法進行研究。一種是生成對抗網絡(GAN),其模型通過框架中(至少)兩個模塊:生成模型(Generative Model)和判別模型(Discriminative Model),兩個模型的互相博弈學習產生相當好的輸出,但基于GAN的任務模型需要有良好的訓練方法,否則可能由于神經網絡模型的自由性而導致輸出不理想。其次,與單模型網絡相比,GAN模型的復雜度較高,計算量偏大。另一種是基于上采樣計算的單模型網絡,由于其只由一個完整的網絡模型組成,因此結構較為簡單,但影響輸出結果。
在過去幾年里,基于深度學習的方法在圖像特征學習方面取得了快速的進步,各種預訓練卷積網絡模型被用于圖像特征的提取。這些特征是網絡最后幾個全連接層的激活值,在遷移學習的任務中表現良好。但是由于缺少對運動信息的建模,這些基于圖像的深度特征并不直接適用于基于視頻數據完成的任務,不適用于ADAS/無人駕駛系統中未來幀的預測任務。在視頻圖像生成的時候,由于使用的視頻圖像中的前背景都處于動態變化過程中,相鄰幀之間的差異較小且差異主要體現為駕駛場景中物體種類和尺度的動態變化,因此利用現有技術對單張圖片進行二維特征的分析,很容易存在動態特征丟失的情況,導致預測不準確。
發明內容
由于目前深度學習方法提取的圖像深度特征并不直接適用于基于視頻數據完成的任務以及深度學習方法存在的不足,對視頻圖像進行二維特征分析存在動態特征丟失,預測不準確的問題,因此,本發明提出一種基于視頻圖像的未來幀預測模型及方法。本發明使用三維卷積深度網絡模型來學習視頻段的時空特征;充分利用視頻中圖像幀的外觀信息及幀間的運動信息和三維卷積深度網絡模型的優勢,通過提出一個由記憶回溯、記憶精煉和預測模塊組成的深度學習模型來模擬人腦的預測機制,實現基于視頻圖像的未來幀預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911089718.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





