[發明專利]一種視頻場景分類方法及系統在審
| 申請號: | 202211023079.0 | 申請日: | 2022-08-25 |
| 公開(公告)號: | CN115393764A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 龐守恩;沈勝慶;薛兵;楊紀沖 | 申請(專利權)人: | 山東聚祥機械股份有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/80;G06V10/82;G06N3/04;G06N3/08;G06K9/62;H04N21/234;H04N21/44 |
| 代理公司: | 深圳市廣諾專利代理事務所(普通合伙) 44611 | 代理人: | 劉偉 |
| 地址: | 274900 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 場景 分類 方法 系統 | ||
本發明公開了一種視頻場景分類方法及系統,具體涉及視頻場景分類技技術領域,視頻場景分類方法包括在視頻的部分模態存在數據缺失的前提下,通過訓練好的視頻場景分類方法,得到部分模態數據缺失情況下的視頻場景分類結果;視頻場景分類系統包括:特征學習模塊和視頻場景分類模塊。本發明基于松弛一致性和多模態結構保持,通過放松對多模態語義一致性的限制,使得視頻各模態間的互補性得以保持,通過多模態結構保持約束,實現各模態數據在非線性變換前后相似性得以保持,通過上述兩個約束,學習具有更豐富語義表征能力的視頻場景特征表示,提高場景分類的準確率。
技術領域
本發明涉及視頻場景分類技術領域,更具體地說是一種視頻場景分類方法及系統。
背景技術
本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
場景分類是計算機視覺的關鍵任務,也是圖像或視頻理解的重要內容。場景是指以觀察者的視角來說,在觀察者周圍的視野空間,人可以到達或者可以在里面活動的一個空間。場景分類是一個觀察者對視野內環境的理解,包括環境中所包含的對象以及對象之間的關系等。不同層次的場景分類,可以共同組成對場景的理解。場景分類的一個重要應用是為行為檢測、目標識別、特定場景下的異常檢測、行人識別等提供輔助。除此之外,還可以輔助商品推薦、文字解說、輔助偵察、自動駕駛等。
視頻場景分類主要是對視頻中的場景進行識別,輔助自動駕駛或輔助偵察等。目前大多數視頻理解都是基于視覺、聲音和文本等多個模態的信息,視頻場景分類也是基于多模態數據。開放場景下的視頻數據存在部分模態數據缺失的問題,因此本發明所針對的背景數據為存在部分模態數據缺失的視頻數據。由于現有的多模態學習技術大多對多模態的語義一致性進行嚴格的約束,這不符合現實場景數據特點。因此,本發明放松對多模態語義的一致性的約束,并保持多模態特征變換前后樣本之間的相似性,可以提升視頻場景分類性能。
發明內容
為了克服現有技術的上述缺陷,本發明提供一種視頻場景分類方法及系統,基于松弛一致性和多模態結構保持,通過放松對多模態語義一致性的限制,使得視頻各模態間的互補性得以保持,通過多模態結構保持約束,實現各模態數據在非線性變換前后相似性得以保持。通過上述兩個約束,學習具有更豐富語義表征能力的視頻場景特征表示,提高場景分類的準確率。
為實現上述目的,本發明提供如下技術方案:
本發明的第一方面提供一種基于松弛一致性和多模態結構保持的視頻場景分類方法:
包括在視頻的部分模態存在數據缺失的前提下,通過訓練好的視頻場景分類方法,得到部分模態數據缺失情況下的視頻場景分類結果;
上述視頻場景分類方法包括以下幾部分:
視頻的視覺、聲音、文本三個模態數據通過各自非線性映射網絡,實現非線性特征變換;
所有模態樣本經過各自多層神經網絡的非線性變換后,轉化為新的特征表示,其中缺失的樣本采用全零向量表示,為了保持同一樣本多個模態之間的語義一致性,將樣本集各模態變換后的特征再次加權,加權后的各模態特征與該樣本其它模態特征計算相似性;最小化相似性,得到具有松弛一致性的各模態新的特征表示;
通過上述松弛一致性保持的約束,得到新的特征向量,計算各模態樣本之間的相似性,使得各個模態樣本都可以保持特征變換前后的相似性,實現多模態結構保持;
通過樣本各模態的非線性變換和松弛一致性及結構保持約束,得到視覺、聲音、文本三個模態的新的特征表示,將該特征表示向量經過全連接層,得到存在部分模態數據缺失的視頻場景分類結果。
進一步的,所述非線性變換網絡包括三個多層神經網絡,輸入分別為視覺、聲音和文本模態原始特征,所述非線性變換后的特征加權為線性加權。
進一步的,所述視頻場景分類方法訓練的過程包括:
S1:獲取視頻場景數據集,去除部分數據構造模態缺失數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東聚祥機械股份有限公司,未經山東聚祥機械股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211023079.0/2.html,轉載請聲明來源鉆瓜專利網。





