[發明專利]視頻實時識別分割及檢測架構有效
| 申請號: | 202010945694.1 | 申請日: | 2020-09-10 |
| 公開(公告)號: | CN111985456B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 景乃鋒;宋卓然;吳飛洋 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/94;G06V10/82;G06N3/04;H04N19/114;H04N19/176;H04N19/423;H04N19/513;G06F12/0875;G06F12/0895;G06F12/123 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 周涌賀 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 實時 識別 分割 檢測 架構 | ||
本發明公開了一種視頻實時識別分割及檢測架構,包括主存以及通過總線分別與主存連接的視頻解碼器、視頻識別處理模塊和神經網絡處理模塊;其中視頻識別處理模塊用于基于運動矢量表存儲B類幀的運動矢量,并基于B類幀的運動矢量按解碼順序依次從主存中讀取B幀圖像數據參考幀中的圖像分割結果和已獲取的B幀圖像數據的重建結果或B幀圖像數據的參考幀圖像檢測結果并處理,獲取B類幀的重建結果。本發明結構通過將視頻解碼器和神經網絡緊密地聯系起來,來維持準確率的同時實現更高的性能,解決現有對視頻識別任務處理方法無法在確保精度較高的基礎上降低計算量和能耗的問題。
技術領域
本發明涉及神經網絡技術領域,尤其涉及一種視頻實時識別分割及檢測架構。
背景技術
深度卷積神經網絡已經在圖像識別中得到廣泛的應用,例如在圖像的分類、檢測及分割中。隨著其發展,人們逐漸將深度卷積神經網絡的應用范圍擴展到了視頻領域。
其中深度學習較適合處理圖像識別任務。具體對于目標分割任務,完全卷積網絡已在該領域得到最大的應用;而對于目標檢測,R-CNN家族占據了統治地位。然而若直接將上述圖像識別模型應用到每一幀視頻上,則會存在不可承擔的計算量和能量。因此基于圖像識別的限制,研究者們提出了許多針對視頻識別的神經網絡,例如OSVOS提出了雙流FCN模型分別針對前景和輪廓;為了得到更好的性能,FAVOS提出了基于追蹤到的目標物體進行局部分割,隨后還構建了ROI SegNet,一個用于分割目標的魯棒性強但仍然很大的網絡。然而上述技術達到高準確率的代價是高計算量和能量。
再者已知圖像信息在視頻幀之間的變化是緩慢的,利用這種數據冗余可減少計算量。因此為了實現實時視頻分割,DFF提出了深度特征流方法,它是第一個直接將光流和關鍵特征結合在一起的。光流也是用神經網絡提取出來的,而關鍵特征則是從對關鍵幀用大型卷積神經網絡提取出來的,但關鍵幀是通過間隔固定數目的幀的方式來決定的,該種方法會影響識別的精確度,同時提取光流的開銷也很大。
發明內容
本發明所要解決的技術問題是現有對視頻識別任務進行處理的方法,若識別精度較高則需耗費大量的計算量和能耗,而若降低計算量和能量則會影響識別的精確度。
為了解決上述技術問題,本發明提供了一種視頻實時識別分割及檢測架構,包括主存以及通過總線分別與所述主存連接的視頻解碼器、視頻識別處理模塊和神經網絡處理模塊;
所述視頻解碼器,用于對目標視頻進行解碼獲取解碼順序,并獲取目標視頻的I類幀圖像數據、P類幀圖像數據和運動矢量表;
所述視頻識別處理模塊,用于基于所述運動矢量表存儲B類幀的運動矢量,并基于B類幀的運動矢量按解碼順序依次從所述主存中讀取B幀圖像數據參考幀中的圖像分割結果和已獲取的B幀圖像數據的重建結果或B幀圖像數據的參考幀圖像檢測結果并處理,獲取B類幀的重建結果;
所述神經網絡處理模塊,用于利用第一預設神經網絡對I類幀圖像數據和P類幀圖像數據進行分割得到I類幀圖像分割結果和P類幀圖像分割結果,利用第三預設神經網絡對I類幀圖像數據和P類幀圖像數據進行檢測得到I類幀圖像檢測結果和P類幀圖像檢測結果,利用第二預設神經網絡對B類幀的重建結果、I類幀圖像分割結果和P類幀圖像分割結果進行分割,得到B類幀的圖像檢測結果,且利用第二預設神經網絡對B類幀的重建結果、設定后的I類幀圖像檢測結果、設定后的P類幀圖像檢測結果進行檢測,得到B類幀的圖像檢測結果;
所述主存,用于對I類幀圖像數據、P類幀圖像數據、I類幀圖像分割結果、P類幀圖像分割結果、I類幀圖像檢測結果、P類幀圖像檢測結果、B類幀的重建結果、設定后的I類幀圖像檢測結果、設定后的P類幀圖像檢測結果、B類幀圖像分割結果以及B類幀的圖像檢測結果進行存儲;
其中,所述目標視頻的視頻編解碼標準為具有I幀圖像數據、B幀圖像數據和P幀圖像數據的分類,具有運動矢量表,且每幀圖像數據按預設方式分割成多個分割小塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010945694.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種科技技術咨詢企業用打卡機
- 下一篇:用于裁切表面貼塑PVC泡沫板的刀具





