[發(fā)明專利]基于強(qiáng)化學(xué)習(xí)的行為識別視頻幀采樣方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910060129.4 | 申請日: | 2019-01-22 |
| 公開(公告)號: | CN109800717B | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 張兆翔;譚鐵牛;董文愷;張馳 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京市恒有知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11576 | 代理人: | 郭文浩;黎慧華 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 行為 識別 視頻 采樣 方法 系統(tǒng) | ||
1.一種基于強(qiáng)化學(xué)習(xí)的行為識別視頻幀采樣方法,其特征在于,所述行為識別視頻幀采樣方法包括:
從待測試視頻提取待測視頻幀序列,并從所述待測視頻幀序列中均勻采樣T幀待測圖像;
基于行為識別的基礎(chǔ)模型,根據(jù)各幀待測圖像,確定對應(yīng)幀待測圖像的待測特征向量和待測行為預(yù)測;
針對每幀待測圖像,將所述待測特征向量和待測行為預(yù)測級聯(lián),得到待測狀態(tài)序列;
根據(jù)基于長短時(shí)記憶網(wǎng)絡(luò)的智能體及所述待測狀態(tài)序列,確定每幀待測圖像的待測重要性得分;
所述基于長短時(shí)記憶網(wǎng)絡(luò)的智能體通過策略梯度進(jìn)行訓(xùn)練得到,其方法為:從訓(xùn)練集中提取任意訓(xùn)練視頻,并從所述訓(xùn)練視頻中均勻采樣T幀訓(xùn)練圖像;
基于行為識別的基礎(chǔ)模型,根據(jù)各幀訓(xùn)練圖像,確定對應(yīng)幀訓(xùn)練圖像的訓(xùn)練特征向量和訓(xùn)練行為預(yù)測,計(jì)算所有訓(xùn)練圖像的訓(xùn)練行為預(yù)測取平均值得到視頻的初始行為預(yù)測p0:
其中,為第t幀訓(xùn)練圖像的訓(xùn)練行為預(yù)測,KC表示是一個(gè)C維特征向量,C為數(shù)據(jù)集的行為類別總數(shù),T表示訓(xùn)練圖像的幀數(shù);
針對每幀訓(xùn)練圖像,將所述訓(xùn)練特征向量與訓(xùn)練行為預(yù)測級聯(lián),組成訓(xùn)練狀態(tài)序列;
根據(jù)所述訓(xùn)練狀態(tài)序列及基于深度神經(jīng)網(wǎng)絡(luò)的智能體,確定該訓(xùn)練圖像的動作的概率分布,基于深度神經(jīng)網(wǎng)絡(luò)的智能體對每幀訓(xùn)練圖像的采用的動作有兩種:丟棄和保留;
根據(jù)該訓(xùn)練圖像的動作的概率分布進(jìn)行采樣,組成動作序列,對動作的采樣過程可以形式化為:
其中,at∈{0,1}為基于深度神經(jīng)網(wǎng)絡(luò)的智能體對第t幀采取的動作,0表示丟棄動作,1表示保留動作;為基于深度神經(jīng)網(wǎng)絡(luò)的智能體對第t幀采取保留動作的概率,Bernoulli表示伯努利分布函數(shù);
根據(jù)動作序列挑選關(guān)鍵幀,并將關(guān)鍵幀的行為預(yù)測取平均值得到新行為預(yù)測:
根據(jù)所述初始行為預(yù)測和新行為預(yù)測,計(jì)算智能體獲得的獎勵;
根據(jù)各訓(xùn)練圖像的動作序列和獎勵,計(jì)算目標(biāo)函數(shù)和基于深度神經(jīng)網(wǎng)絡(luò)的智能體參數(shù)的梯度,并更新基于深度神經(jīng)網(wǎng)絡(luò)的智能體的參數(shù);
重復(fù)根據(jù)所述基于深度神經(jīng)網(wǎng)絡(luò)的智能體的參數(shù),直至所述基于深度神經(jīng)網(wǎng)絡(luò)的智能體所獲得的期望獎勵最大或達(dá)到迭代次數(shù),以得到所述基于長短時(shí)記憶網(wǎng)絡(luò)的智能體;
按照待測重要性得分的大小,從各所述幀待測圖像中選取多幀待測視頻的關(guān)鍵幀;
根據(jù)各關(guān)鍵幀的待測行為預(yù)測,得到所述待測視頻的行為預(yù)測;
根據(jù)所述待測視頻的行為預(yù)測,確定識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的行為識別視頻幀采樣方法,其特征在于,所述根據(jù)所述初始行為預(yù)測和新行為預(yù)測,計(jì)算智能體獲得的獎勵,具體包括:
若初始視頻行為預(yù)測p0和新視頻行為預(yù)測p1對視頻中行為類別判斷相同,則獎勵其中,和分別為p0和p1的第c維,c為視頻的正確標(biāo)簽,sgn表示符號函數(shù);
若兩次預(yù)測對視頻行為類別的判斷不同,且如果初始判斷是錯誤的,智能體執(zhí)行動作后,判斷是正確的,則智能體獲得獎勵R=10;反之,智能體獲得懲罰R=-10。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910060129.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于特征金字塔的海面遙感圖像船舶檢測方法
- 下一篇:一種視頻人像比對方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





