[發(fā)明專利]基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位的方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911296268.3 | 申請(qǐng)日: | 2019-12-16 |
| 公開(公告)號(hào): | CN111079646B | 公開(公告)日: | 2023-06-06 |
| 發(fā)明(設(shè)計(jì))人: | 李冠彬;劉勁;林倞 | 申請(qǐng)(專利權(quán))人: | 中山大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V40/20;G06V10/764;G06V10/82;G06N3/0464;G06N3/0442;G06N3/048;G06N3/0895 |
| 代理公司: | 廣州容大知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44326 | 代理人: | 劉新年 |
| 地址: | 510275 廣東省*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 監(jiān)督 視頻 時(shí)序 動(dòng)作 定位 方法 系統(tǒng) | ||
1.一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,包括如下步驟:
步驟S1,提取視頻的當(dāng)前幀以及其前一幀,利用光流估算網(wǎng)絡(luò)提取光流,并連同等間隔對(duì)視頻采樣的幀輸入預(yù)訓(xùn)練的雙流動(dòng)作識(shí)別網(wǎng)絡(luò),提取視頻特征;
步驟S2,將提取的視頻特征通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)義一致性建模,獲得所述視頻特征的嵌入表示;
步驟S3,訓(xùn)練分類模塊將步驟S2獲得的嵌入特征映射到類激活序列;
步驟S4,采用基于嵌入特征的注意力模塊根據(jù)步驟S2獲得的嵌入特征得到視頻時(shí)間維度的注意力分布,并使用所述注意力分布更新視頻特征;
步驟S5,將更新后的視頻特征作為下一次循環(huán)的輸入,重復(fù)步驟S2-S4的訓(xùn)練過(guò)程,直到符合停止條件;
步驟S6,將每次循環(huán)產(chǎn)生的類激活序列進(jìn)行融合,進(jìn)而解析生成時(shí)序動(dòng)作定位結(jié)果和估計(jì)的動(dòng)作類別,計(jì)算估計(jì)的動(dòng)作類別與真實(shí)動(dòng)作類別標(biāo)簽的分類損失;
步驟S7,將每次循環(huán)的嵌入特征進(jìn)行融合,計(jì)算視頻動(dòng)作特征間的相似性損失;
步驟S8,將分類損失及相似性損失按權(quán)相加,得到目標(biāo)損失,更新系統(tǒng)的模型參數(shù)。
2.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S1中,所述光流估算網(wǎng)絡(luò)采用TV-L1網(wǎng)絡(luò),在處理視頻第一幀時(shí),將第一幀與其自身合并一起,輸入到所述TV-L1網(wǎng)絡(luò)中通過(guò)TV-L1算法得到光流。
3.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S1中,所述預(yù)訓(xùn)練的雙流動(dòng)作識(shí)別網(wǎng)絡(luò)采用膨脹三維卷積網(wǎng)絡(luò),以實(shí)現(xiàn)視頻外觀和運(yùn)動(dòng)特征的提取。
4.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S2中,所述循環(huán)神經(jīng)網(wǎng)絡(luò)采用長(zhǎng)短期記憶網(wǎng)絡(luò),于每次循環(huán)中接收上一次循環(huán)的網(wǎng)絡(luò)隱含狀態(tài)以及更新的視頻特征,進(jìn)行特征語(yǔ)義一致性建模。
5.如權(quán)利要求4所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S2中,在第一次循環(huán)時(shí),所述長(zhǎng)短期記憶網(wǎng)絡(luò)僅接收原始視頻特征用于建模特征語(yǔ)義一致性。
6.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S3中,所述分類模塊采用一個(gè)全連接層將嵌入特征映射到隱含層,并采用修正線性單元ReLU激活后使用隨機(jī)失活層防止過(guò)擬合,最后使用一個(gè)全連接層將隱含特征映射到動(dòng)作類別空間,以產(chǎn)生所述類激活序列。
7.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S4中,所述基于嵌入特征的注意力模塊采用雙層感知機(jī)根據(jù)步驟S2得到的嵌入特征預(yù)測(cè)所述視頻特征在時(shí)間維度上的注意力分布,并通過(guò)計(jì)算注意力分布的反相用于更新原始視頻特征。
8.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S6中,將步驟S5中每次循環(huán)產(chǎn)生的類激活序列沿循環(huán)維度進(jìn)行張量拼接,應(yīng)用平均池化操作得到融合的類激活序列,并對(duì)融合的類激活序列執(zhí)行閾值操作和Softmax操作分別得到動(dòng)作實(shí)例的時(shí)序定位結(jié)果和視頻級(jí)別的估計(jì)類別,將估計(jì)的動(dòng)作類別與真實(shí)的動(dòng)作類別標(biāo)簽計(jì)算交叉熵作為分類損失。
9.如權(quán)利要求1所述的一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位方法,其特征在于:于步驟S7中,將步驟S5中每次循環(huán)的嵌入特征沿循環(huán)維度進(jìn)行張量拼接,應(yīng)用平均池化操作得到融合的嵌入特征,使用視頻特征向量余弦相似性的鉸鏈損失作為動(dòng)作的相似性損失。
10.一種基于深度學(xué)習(xí)的弱監(jiān)督視頻時(shí)序動(dòng)作定位系統(tǒng),包括:
特征提取單元,用于提取視頻的當(dāng)前幀以及其前一幀,利用光流估算網(wǎng)絡(luò)提取光流,并連同等間隔對(duì)視頻采樣的幀輸入預(yù)訓(xùn)練的雙流動(dòng)作識(shí)別網(wǎng)絡(luò),提取視頻特征,輸入至語(yǔ)義一致性建模單元;
語(yǔ)義一致性建模單元,用于將提取的視頻特征通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)義一致性建模,建立當(dāng)前視頻特征與歷史動(dòng)作語(yǔ)義信息的聯(lián)系,生成所述視頻特征的保持語(yǔ)義一致性的嵌入特征,輸入至類激活序列單元和特征更新單元;
類激活序列生成單元,用于將嵌入特征進(jìn)行解析生成視頻的類激活序列;
特征更新單元,用于使用嵌入特征生成視頻時(shí)間維度的注意力分布,并使用所述注意力分布更新視頻特征;
循環(huán)訓(xùn)練單元,用于多次循環(huán)式地對(duì)視頻特征進(jìn)行所述語(yǔ)義一致性建模單元、類激活序列生成單元以及特征更新單元的訓(xùn)練過(guò)程,直到滿足設(shè)定的停止條件時(shí)停止訓(xùn)練;
分類損失計(jì)算單元,用于融合每次循環(huán)生成的類激活序列并解析成時(shí)序動(dòng)作定位結(jié)果和估計(jì)的動(dòng)作類別,將所述估計(jì)的動(dòng)作類別與真實(shí)的動(dòng)作類別標(biāo)簽計(jì)算分類損失;
相似性損失計(jì)算單元,用于融合每次循環(huán)生成的嵌入特征,計(jì)算視頻動(dòng)作特征間的相似性損失;
權(quán)重更新單元,用于對(duì)分類損失和相似性損失加權(quán)求和,得到目標(biāo)損失,更新系統(tǒng)的模型參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911296268.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





