[發明專利]視頻結構化方法、裝置、系統及存儲介質在審
| 申請號: | 201710964639.5 | 申請日: | 2017-10-17 |
| 公開(公告)號: | CN108875494A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 張弛;徐子堯 | 申請(專利權)人: | 北京曠視科技有限公司;北京邁格威科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06N3/04 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰;張瑋 |
| 地址: | 100190 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻結構化 視頻 感興趣對象 存儲介質 視頻特征 圖像特征 視頻幀 處理效率 | ||
本發明的實施例提供了一種視頻結構化方法、裝置、系統及存儲介質。該方法包括:獲取視頻;提取所述視頻中多個視頻幀的圖像特征;根據所述圖像特征確定所述視頻的視頻特征;以及基于所述視頻特征識別所述視頻中的感興趣對象并確定所述感興趣對象的屬性。上述用于視頻結構化的技術方案不僅處理效率高,而且能夠獲得更準確的視頻結構化結果,即使所述視頻中包含質量較差的視頻幀。
技術領域
本發明涉及圖像處理領域,更具體地涉及一種視頻結構化方法、裝置、系統及存儲介質。
背景技術
隨著通信網絡、數據壓縮和海量存儲技術的發展,越來越多的多媒體信息以計算機可讀的形式存在于互聯網上。它們不僅包括常見的文字數據,還包括視頻等媒體信息。它們一般缺乏語義信息,信息檢索系統難以對它們進行有效搜索,只有對媒體數據進行有效結構化,才能幫助人們更快地找到感興趣內容。
視頻結構化是一種視頻內容信息提取的智能分析過程,它對視頻內容按照語義關系,采用時空分割、特征提取、對象識別等處理手段,組織成可供計算機和人理解的文本信息。目前,視頻結構化已經應用到很多領域。例如,對行人、車輛的視頻結構化是諸多安防應用中不可或缺的一環。
現有技術的視頻結構化中,首先,對視頻的每一視頻幀中的對象進行屬性分類。視頻幀中的對象可以為行人和車輛等。對象的屬性可以包括行人的性別、年齡、衣著顏色等,還可以包括車輛的顏色等。然后,把同一個對象在多個視頻幀中的屬性分類結果進行融合。現有技術方案所獲得的對象的屬性等相關信息準確度不夠。
發明內容
考慮到上述問題而提出了本發明。本發明提供了一種視頻結構化方法、裝置、系統及存儲介質。
根據本發明一方面,提供了一種視頻結構化方法,包括:
獲取視頻;
提取所述視頻中多個視頻幀的圖像特征;
根據所述圖像特征確定所述視頻的視頻特征;以及
基于所述視頻特征識別所述視頻中的感興趣對象并確定所述感興趣對象的屬性。
示例性地,所述根據所述圖像特征確定所述視頻的視頻特征包括:將所述多個視頻幀的圖像特征中的每個視頻幀的圖像特征輸入循環式神經網絡,以獲得所述視頻特征,其中,對于所述循環式神經網絡的隱藏層中的每個神經元,該神經元的輸出不僅與當前時刻的輸入有關,還與該神經元在其他時刻的輸入有關。
示例性地,所述將所述多個視頻幀的圖像特征中的每個視頻幀的圖像特征輸入循環式神經網絡包括:按照所述多個視頻幀的時間順序,將所述多個視頻幀的圖像特征中的每個視頻幀的圖像特征輸入所述循環式神經網絡。
示例性地,所述循環式神經網絡是雙向循環式神經網絡。
示例性地,所述基于所述視頻特征識別所述視頻中的感興趣對象并確定所述感興趣對象的屬性包括:
對所述視頻特征進行池化處理;
基于經池化后得到的視頻特征識別所述視頻中的感興趣對象并確定所述感興趣對象的屬性。
示例性地,所述提取所述視頻中多個視頻幀的圖像特征包括:利用卷積神經網絡提取所述視頻中多個視頻幀的圖像特征。
示例性地,所述視頻特征是利用循環式神經網絡確定的,所述卷積神經網絡和所述循環式神經網絡組成結構化神經網絡;
所述方法還包括:利用訓練視頻的多個訓練視頻幀訓練初始神經網絡,以得到所述結構化神經網絡,其中所述訓練視頻幀中標注了識別對象以及所述識別對象的屬性,所述初始神經網絡包括初始卷積神經網絡和初始循環式神經網絡。
根據本發明另一方面,還提供了一種視頻結構化裝置,包括:
獲取模塊,用于獲取視頻;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京曠視科技有限公司;北京邁格威科技有限公司,未經北京曠視科技有限公司;北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710964639.5/2.html,轉載請聲明來源鉆瓜專利網。





