[發(fā)明專利]基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法有效
| 申請(qǐng)?zhí)枺?/td> | 202210448080.1 | 申請(qǐng)日: | 2022-04-26 |
| 公開(公告)號(hào): | CN114821420B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計(jì))人: | 張海平;馬琮皓;胡澤鵬;劉旭;管力明;施月玲 | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué);杭州電子科技大學(xué)信息工程學(xué)院 |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V10/44;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 楊天嬌 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多時(shí) 分辨率 時(shí)態(tài) 語義 聚合 網(wǎng)絡(luò) 時(shí)序 動(dòng)作 定位 方法 | ||
1.一種基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:所述基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法包括如下步驟:
S1、獲取原始視頻并進(jìn)行預(yù)處理,所述預(yù)處理為從原始視頻中提取特征序列所述特征序列X攜帶有注釋標(biāo)簽其中,時(shí)間分辨率T=S/σ,S為原始視頻的總幀數(shù),σ為不同片段xi之間間隔的幀數(shù),C為片段xi的特征維度,kn為第n個(gè)動(dòng)作,ts,n、te,n和Cn依次為第n個(gè)動(dòng)作的開始時(shí)間、結(jié)束時(shí)間和動(dòng)作種類,N為特征序列X的動(dòng)作數(shù)量;
S2、復(fù)制特征序列X為N'份,并通過卷積層將復(fù)制后的各特征序列X的時(shí)間分辨率調(diào)整為不同值;
S3、建立多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò),所述多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)包括依次連接的第一特征提取單元、第二特征提取單元、第三特征提取單元和后處理模塊,所述第一特征提取單元包括N'個(gè)并行的子模塊,所述子模塊包括依次連接的第一時(shí)態(tài)語義上下文融合模塊和第一注意力單元,所述第二特征提取單元用于將各所述第一注意力單元的輸出特征圖進(jìn)行相加聚合,所述第三特征提取單元包括依次連接的第二注意力單元、第七特征提取單元和第二時(shí)態(tài)語義上下文融合模塊,其中:
各所述時(shí)態(tài)語義上下文融合模塊,包括第四特征提取單元、以及并行的第一分支單元、第二分支單元和第三分支單元,所述第一分支單元用于輸出對(duì)應(yīng)時(shí)態(tài)語義上下文融合模塊的原始輸入特征圖,所述第二分支單元包括依次連接的自注意力模塊、第五特征提取單元和第一分組卷積單元,所述第五特征提取單元還與所述自注意力模塊的輸入端連接,用于進(jìn)行相加聚合,所述第三分支單元包括依次連接的動(dòng)態(tài)圖卷積網(wǎng)絡(luò)、第一Involution卷積層、第二Involution卷積層、第六特征提取單元、第一MobileNet網(wǎng)絡(luò)、第二分組卷積單元和第二MobileNet網(wǎng)絡(luò),所述第六特征提取單元還與所述動(dòng)態(tài)圖卷積網(wǎng)絡(luò)的輸出端連接,用于進(jìn)行相加聚合,所述第四特征提取單元用于將所述第一分支單元、第二分支單元和第三分支單元的輸出特征圖進(jìn)行相加聚合;
各所述注意力單元基于八頭注意力機(jī)制進(jìn)行局部特征和全局特征提取;
所述第七特征提取單元用于將所述第二注意力單元的輸出特征圖與超參數(shù)1/N'進(jìn)行相乘操作;
所述后處理模塊包括依次連接的上采樣模塊、concat層和全連接層,所述上采樣模塊還與所述第二時(shí)態(tài)語義上下文融合模塊的動(dòng)態(tài)圖卷積網(wǎng)絡(luò)的輸出端連接;
S4、將時(shí)間分辨率調(diào)整后的各特征序列X一一對(duì)應(yīng)輸入所述子模塊,采用分類損失和回歸損失訓(xùn)練多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò);
S5、利用訓(xùn)練好的多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)預(yù)測待識(shí)別視頻的動(dòng)作開始時(shí)間、動(dòng)作結(jié)束時(shí)間、動(dòng)作種類和置信分?jǐn)?shù)。
2.如權(quán)利要求1所述的基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:步驟S2中,N'=3,調(diào)整后的各特征序列X的時(shí)間分辨率分別為T、T/2、256。
3.如權(quán)利要求1所述的基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:各所述分組卷積單元采用32條路徑。
4.如權(quán)利要求1所述的基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:所述第五特征提取單元、第二Involution卷積層、第四特征提取單元的輸出端均連接有Relu激活函數(shù)。
5.如權(quán)利要求1所述的基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:所述第五特征提取單元將80%的原始輸入特征圖和20%的自注意力模塊的輸出特征圖進(jìn)行相加聚合。
6.如權(quán)利要求1所述的基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:所述注意力單元分別采用四頭注意力機(jī)制進(jìn)行局部特征和全局特征提取。
7.如權(quán)利要求1所述的基于多時(shí)間分辨率時(shí)態(tài)語義聚合網(wǎng)絡(luò)的時(shí)序動(dòng)作定位方法,其特征在于:所述分類損失Lc和回歸損失Ln,計(jì)算公式如下:
Lc=Lwce(ps,dss)+Lwce(pe,dse)
Ln=Lwce(pcls,1{ψc>0.5})+ω1·Lmse(preg,ψc)
其中,Lmse為均方誤差損失,Lwce為加權(quán)交叉熵?fù)p失,ps為每個(gè)片段對(duì)應(yīng)的預(yù)測開始概率,pe為每個(gè)片段對(duì)應(yīng)的預(yù)測結(jié)束概率,dss為每個(gè)片段對(duì)應(yīng)的ps的訓(xùn)練目標(biāo),dse為每個(gè)片段對(duì)應(yīng)的pe的訓(xùn)練目標(biāo),pcls為分類損失對(duì)應(yīng)的得分,preg為回歸損失對(duì)應(yīng)的得分,ω1為權(quán)衡系數(shù),ψc為最大的IoU。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué);杭州電子科技大學(xué)信息工程學(xué)院,未經(jīng)杭州電子科技大學(xué);杭州電子科技大學(xué)信息工程學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210448080.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 英語時(shí)態(tài)演示板
- 一種不確定語義時(shí)態(tài)查詢中間件的方法及裝置
- 一種語法密碼教學(xué)方法
- 一種英語時(shí)態(tài)教學(xué)分析方法
- 針對(duì)時(shí)態(tài)知識(shí)數(shù)據(jù)的大數(shù)據(jù)挖掘系統(tǒng)
- 英語時(shí)態(tài)學(xué)習(xí)系統(tǒng)及對(duì)應(yīng)時(shí)態(tài)學(xué)習(xí)方法
- 一種英語時(shí)態(tài)教具
- 一種文本處理方法及設(shè)備
- 一種英語時(shí)態(tài)演示裝置
- 一種英語時(shí)態(tài)教學(xué)器





