[發(fā)明專利]一種基于時(shí)空注意力的視頻分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710379817.8 | 申請(qǐng)日: | 2017-05-25 |
| 公開(kāi)(公告)號(hào): | CN107330362B | 公開(kāi)(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 彭宇新;張俊超 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時(shí)空 注意力 視頻 分類 方法 | ||
1.一種基于時(shí)空注意力的視頻分類方法,包括以下步驟:
(1)對(duì)訓(xùn)練視頻和待預(yù)測(cè)視頻提取幀和光流,將連續(xù)若干光流的水平分量和垂直分量交替堆疊為多通道的圖像;
(2)用深度網(wǎng)絡(luò)構(gòu)建時(shí)空注意力模型,包含連接網(wǎng)絡(luò)、空域注意力網(wǎng)絡(luò)、時(shí)域注意力網(wǎng)絡(luò)三個(gè)組成部分;所述連接網(wǎng)絡(luò)包含若干卷積層、池化層和全連接層,其最后一個(gè)池化層為加權(quán)池化層;連接網(wǎng)絡(luò)通過(guò)加權(quán)池化層和全連接層分別連接空域注意力網(wǎng)絡(luò)和時(shí)域注意力網(wǎng)絡(luò);所述空域注意力網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,用于學(xué)習(xí)空域顯著性;所述時(shí)域注意力網(wǎng)絡(luò)由循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成,用于學(xué)習(xí)時(shí)域顯著性;
(3)對(duì)步驟(2)中時(shí)空注意力模型的三個(gè)組成網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,利用步驟(1)得到的訓(xùn)練視頻的幀和光流分別學(xué)習(xí)兩個(gè)能夠用于視頻分類的時(shí)空注意力模型;
(4)利用步驟(3)中訓(xùn)練得到的兩個(gè)時(shí)空注意力模型對(duì)待預(yù)測(cè)視頻的幀和光流分別計(jì)算語(yǔ)義類別的預(yù)測(cè)得分,然后融合幀預(yù)測(cè)得分和光流預(yù)測(cè)得分,得到待預(yù)測(cè)視頻最終的語(yǔ)義類別。
2.如權(quán)利要求1所述的方法,其特征在于,步驟(1)將連續(xù)L個(gè)光流的水平和垂直分量交替堆疊,得到具有2L個(gè)通道的圖像。
3.如權(quán)利要求1所述的方法,其特征在于,所述空域注意力網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,包含若干卷積層,池化層和一個(gè)用于分類的全連接層;所述空域注意力網(wǎng)絡(luò)的卷積層部分和所述連接網(wǎng)絡(luò)共享卷積權(quán)值,最后一個(gè)池化層為全局平均池化層;所述空域注意力網(wǎng)絡(luò)通過(guò)加權(quán)池化層將空域顯著性傳遞給連接網(wǎng)絡(luò),以指導(dǎo)連接網(wǎng)絡(luò)的學(xué)習(xí)。
4.如權(quán)利要求3所述的方法,其特征在于,所述空域顯著性以及歸一化的空域顯著性由下列公式計(jì)算得到:
其中mc(x,y)表示空間位置(x,y)的顯著性,ak(x,y)表示空域注意力網(wǎng)絡(luò)最后一個(gè)卷積層上第k個(gè)卷積單元在空間位置(x,y)的卷積激活,表示第k個(gè)卷積單元對(duì)于類別c的權(quán)值;表示歸一化的空域顯著性,g表示卷積層單元對(duì)應(yīng)的幀內(nèi)區(qū)域的像素個(gè)數(shù)。
5.如權(quán)利要求1所述的方法,其特征在于,所述時(shí)域注意力網(wǎng)絡(luò)由基于長(zhǎng)短時(shí)記憶單元的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成,包含若干長(zhǎng)短時(shí)記憶層和一個(gè)用于分類的全連接層;所述時(shí)域注意力網(wǎng)絡(luò)接收所述連接網(wǎng)絡(luò)的輸出特征作為輸入,通過(guò)長(zhǎng)短時(shí)記憶層學(xué)習(xí)視頻中的時(shí)域顯著性,判斷視頻序列中每一幀的重要性。
6.如權(quán)利要求5所述的方法,其特征在于,所述時(shí)域顯著性定義為:
[γ1,γ2,…γL]=1tanh(HTH),
其中[γ1,γ2,…γL]表示視頻序列的時(shí)域顯著性,1表示全1向量,H表示長(zhǎng)短時(shí)記憶層隱狀態(tài)的堆疊矩陣,HT表示H的轉(zhuǎn)置矩陣。
7.如權(quán)利要求6所述的方法,其特征在于,時(shí)空注意力模型根據(jù)學(xué)習(xí)得到的空域、時(shí)域顯著性計(jì)算視頻幀或光流的預(yù)測(cè)得分,預(yù)測(cè)得分定義為:
其中α表示連接網(wǎng)絡(luò)輸出的預(yù)測(cè)得分,其包含空域顯著性;預(yù)測(cè)得分[β1,β2,…,βL]中同時(shí)包含了空域、時(shí)域兩方面的顯著性信息。
8.如權(quán)利要求1所述的方法,其特征在于,步驟(4)中視頻分類時(shí),利用步驟(3)中訓(xùn)練得到的兩個(gè)時(shí)空注意力模型分別計(jì)算待預(yù)測(cè)視頻幀的語(yǔ)義類別預(yù)測(cè)得分和光流的語(yǔ)義類別預(yù)測(cè)得分,之后對(duì)其計(jì)算均值或最大值作為待預(yù)測(cè)視頻的語(yǔ)義類別預(yù)測(cè)得分,最后選取具有最大預(yù)測(cè)得分的類別作為待預(yù)測(cè)視頻的語(yǔ)義類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710379817.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種時(shí)空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識(shí)化時(shí)空對(duì)象表達(dá)數(shù)據(jù)庫(kù)建立方法
- 一種基于時(shí)空密度波與同步的大型時(shí)空數(shù)據(jù)聚類算法GRIDWAVE
- 時(shí)空數(shù)據(jù)的存儲(chǔ)方法、查詢方法及存儲(chǔ)裝置、查詢裝置
- 一種云環(huán)境下時(shí)空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對(duì)碰撞方法和裝置
- 時(shí)空數(shù)據(jù)的異常檢測(cè)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種可直接捕獲時(shí)空相關(guān)性的時(shí)空數(shù)據(jù)預(yù)測(cè)方法
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





