[發明專利]基于強化學習的行為識別視頻幀采樣方法及系統有效
| 申請號: | 201910060129.4 | 申請日: | 2019-01-22 |
| 公開(公告)號: | CN109800717B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 張兆翔;譚鐵牛;董文愷;張馳 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;黎慧華 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 行為 識別 視頻 采樣 方法 系統 | ||
本發明涉及一種基于強化學習的行為識別視頻幀采樣方法及系統,所述行為識別視頻幀采樣方法包括:從待測試視頻提取待測視頻幀序列,并從待測視頻幀序列中均勻采樣T幀待測圖像;基于行為識別的基礎模型及各幀待測圖像,確定對應幀待測圖像的待測特征向量和待測行為預測;針對每幀待測圖像,將待測特征向量和待測行為預測級聯,得到待測狀態序列;根據基于長短時記憶網絡的智能體及待測狀態序列,確定每幀待測圖像的待測重要性得分;按照待測重要性得分的大小,從各幀待測圖像中選取多幀待測視頻的關鍵幀;根據各關鍵幀的待測行為預測,得到待測視頻的行為預測;根據待測視頻的行為預測,確定識別結果,從而降低無關幀帶來的負面影響,降低噪聲。
技術領域
本發明涉及計算機視覺和模式識別技術領域,特別涉及一種基于強化學習的行為識別視頻幀采樣方法及系統。
背景技術
由于深度學習在圖像識別領域取得的巨大成功,近年來,行為識別方法主要通過設計深度網絡來從大量有標簽的視頻數據中學習視頻的深度特征表達。
這些工作主要分為以下幾類:基于雙流模型的方法,基于循環神經網絡的方法,基于3D卷積神經網絡的方法以及他們之間的結合。在這些方法中,由于能夠高效的利用視頻信息,基于雙流模型的方法起到了最重要的推動作用。為了高效的對視頻中的行為進行識別,這些方法首先對視頻均勻地、稀疏地采樣,然后對采樣得到的每一幀進行識別,最后將所有幀的行為預測融合得到整個視頻的行為預測,輸出行為類別。
然而在一段視頻中,由于行為顯著性、圖像質量的原因,具有判別力的行為可能只稀疏地分布在視頻的少數幀中,并且其他的幀大多與行為無關,其引入的噪聲甚至可能導致行為識別的結果出現錯誤。
發明內容
為了解決現有技術中的上述問題,即為了準確確定關鍵幀,降低噪聲,本發明提供了一種基于強化學習的行為識別視頻幀采樣方法及系統。
為解決上述技術問題,本發明提供了如下方案:
一種基于強化學習的行為識別視頻幀采樣方法,所述行為識別視頻幀采樣方法包括:
從待測試視頻提取待測視頻幀序列,并從所述待測視頻幀序列中均勻采樣T幀待測圖像;
基于行為識別的基礎模型,根據各幀待測圖像,確定對應幀待測圖像的待測特征向量和待測行為預測;
針對每幀待測圖像,將所述待測特征向量和待測行為預測級聯,得到待測狀態序列;
根據基于長短時記憶網絡的智能體及所述待測狀態序列,確定每幀待測圖像的待測重要性得分;
按照待測重要性得分的大小,從各所述幀待測圖像中選取多幀待測視頻的關鍵幀;
根據各關鍵幀的待測行為預測,得到所述待測視頻的行為預測;
根據所述待測視頻的行為預測,確定識別結果。
可選的,所述基于長短時記憶網絡的智能體通過策略梯度進行訓練得到。
可選的,所述基于長短時記憶網絡的智能體通過策略梯度進行訓練,具體包括:
從訓練集中提取任意訓練視頻,并從所述訓練視頻中均勻采樣T幀訓練圖像;
基于行為識別的基礎模型,根據各幀訓練圖像,確定對應幀訓練圖像的訓練特征向量和訓練行為預測,計算所有訓練圖像的訓練行為預測取平均值得到視頻的初始行為預測p0:
其中,為第t幀訓練圖像的訓練行為預測,KC表示是一個C維特征向量,C為數據集的行為類別總數,T表示訓練圖像的幀數;
針對每幀訓練圖像,將所述訓練特征向量與訓練行為預測級聯,組成訓練狀態序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910060129.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于特征金字塔的海面遙感圖像船舶檢測方法
- 下一篇:一種視頻人像比對方法





