[發明專利]一種基于遞歸卷積神經網絡的視頻內容語義理解的方法在審
| 申請號: | 201811441649.1 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109614896A | 公開(公告)日: | 2019-04-12 |
| 發明(設計)人: | 李玉軍;冀先朋;鄧媛潔;馬寶森 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 濟南金迪知識產權代理有限公司 37219 | 代理人: | 楊樹云 |
| 地址: | 250199 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 遞歸 視頻內容 視頻數據 語義理解 視頻 遞歸神經網絡 人工神經網絡 語義 場景識別 高效提取 廣闊應用 監控視頻 目標檢測 內容分析 事件檢測 視頻特征 視頻狀態 特征表征 網絡視頻 信息丟失 訓練收斂 有機結合 分類器 視頻幀 分類 卷積 內核 幀間 關聯 | ||
本發明涉及一種基于遞歸卷積神經網絡的視頻內容語義理解的方法,用于對網絡視頻、監控視頻等視頻數據進行內容分析與分類。該方法通過將卷積神經網絡放置于遞歸神經網絡內部作為內核,提出視頻狀態概念,實現了在視頻數據中目標檢測與幀間關聯的有機結合,通過在視頻幀間進行遞歸的卷積操作,實現了視頻特征的準確、高效提取,獲得了更具有語義表征的視頻表征,并以此為基礎,采用人工神經網絡全連接分類器完成視頻的分類、事件檢測、場景識別等任務。本發明提出的方法克服了傳統方法中的信息丟失、特征表征能力差、訓練收斂困難等問題,是一種準確、高效、先進并具有廣闊應用前景的方法。
技術領域
本發明涉及一種基于遞歸卷積神經網絡的視頻內容語義理解的方法,屬于計算機視覺技術領域。
背景技術
視頻內容理解是計算機視覺中重要的基本問題之一,其目標是對視頻中的圖像進行特征提取并對視頻幀間關系進行建模,最終獲得整段視頻的特征表示,以利于后續的圖像分析和視頻的語義理解,可用于自動駕駛、監控視頻實時智能檢測及網絡視頻審核等技術領域。
傳統的視頻內容處理方法有單純單幀圖像處理、光流法、基于卷積神經網絡的特征提取方法、基于遞歸神經網絡的特征提取方法或者綜合使用多種方法。近年來,以神經網絡為基礎的深度學習技術的發展和應用,極大地推動了視頻內容理解的發展。
隨著網絡短視頻應用與視頻監控技術的發展與廣泛應用,利用人工智能技術對視頻數據進行特征提取與內容分析成為技術與研究的熱點。通過視頻內容理解技術,可對視頻中的人類動作、場景信息、事件信息做出高度相關的特征表示,通過對視頻數據進行定量的分析實現視頻內容的語義級表示,為后續的視頻分類與檢測提供支持,智能化地自動做出檢測、分類、審核與實時預警處理。可以自動化的、準確的特征提取與表示,大量減少相關領域的人力成本,并基于此實現網絡內容管理、監控視頻實時與離線檢測、自動駕駛等功能。
傳統的視頻內容理解算法總體可分為單幀圖像處理方法、光流法或者綜合使用多種方法。單幀圖像處理方法忽略了視頻的幀間關系,通過單幀圖像內容估計視頻總體內容,存在漏檢、錯檢等嚴重不準確的情況,并缺乏視頻級別的復雜內容表示能力。光流法關注于視頻幀間像素變化,模糊的對視頻幀間變化做出了量化分析,缺乏視頻中實體檢測等具體內容的識別,且對噪聲比較敏感,無法對高層次的場景識別、事件檢測做出準確的表示與分析。
相比以上算法,基于深度學習的視頻內容理解方法,實現了利用已有數據訓練神經網絡模型并應用的技術,提升了視頻分析效果,避免人工檢查。然而,基于深度學習的視頻內容理解方法雖然克服了傳統算法的特征表征性能差、對噪聲敏感、任務層次低等缺點,在基本的視頻內容理解中取得了不錯的結果。但是,目前深度學習進行視頻特征提取與語義理解的方式局限于先采用卷積神經網絡提取單幀信息再利用遞歸神經網絡進行幀間關系建模的級聯組合方式。此類方法存在以下兩個嚴重問題:
第一,卷積神經網絡準確的特征表示對模型輸出的高維度要求、遞歸神經網絡訓練與應用中計算成本對輸入數據的低維度要求,此兩者之間的矛盾導致兩者的級聯結合方式中存在關鍵性的瓶頸,丟失了大量關鍵信息,因此,無法有效利用視頻的幀間關系為神經網絡模型的訓練提供有效的監督,在實際應用中,難以精確地對視頻整體內容作出合理檢測。
第二,此類傳統方式以物體檢測為中心,基于多幀間不同形態的物體來估計視頻內容,割裂了物體檢測與幀間變化兩個概念。現實場景中存在極多不同形態的物體,其準確表征導致了深度學習領域的維數災難問題,對訓練數據集的規模要求過高。并且,對動作長度、場景切換的魯棒性較差。
卷積神經網絡與遞歸神經網絡級聯的視頻內容理解模型基于上述局限,對卷積神經網絡的特征輸出維度做出一定限制,低維度的輸出丟失大量信息,遞歸神經網絡無法準確對視頻幀間關系進行有效建模。
因此,如何有效、合理地結合視頻中物體檢測與動作識別兩個任務來設計神經網絡模型結構,是現在要解決的重要問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811441649.1/2.html,轉載請聲明來源鉆瓜專利網。





