[發(fā)明專利]一種視頻編解碼方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110483437.5 | 申請(qǐng)日: | 2021-04-30 |
| 公開(kāi)(公告)號(hào): | CN113099228A | 公開(kāi)(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計(jì))人: | 郭克華;申長(zhǎng)春;奎曉燕;劉斌;王凌風(fēng);劉超 | 申請(qǐng)(專利權(quán))人: | 中南大學(xué);手拉手信息技術(shù)有限公司 |
| 主分類號(hào): | H04N19/172 | 分類號(hào): | H04N19/172;H04N19/42;H04N19/44;G06N3/04;G06N3/08 |
| 代理公司: | 長(zhǎng)沙正奇專利事務(wù)所有限責(zé)任公司 43113 | 代理人: | 王娟;馬強(qiáng) |
| 地址: | 410083 湖南*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 視頻 解碼 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)了一種視頻編解碼方法及系統(tǒng)。首先,將2D特征與經(jīng)處理的3D特征按時(shí)間序列疊加,實(shí)現(xiàn)靜態(tài)和動(dòng)態(tài)信息的深度融合。然后,引入注意力機(jī)制在每一時(shí)刻t對(duì)融合特征進(jìn)行編碼,通過(guò)softmax函數(shù)得到歸一化權(quán)重,為融合特征分配不同的權(quán)重,得到新的融合特征,以學(xué)習(xí)以人為本的特征,從而促進(jìn)與人類行為相關(guān)的最終語(yǔ)言描述。最后,將新的融合特征輸入到長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)中,隨著時(shí)間的推移進(jìn)行解碼,得到視頻描述句。本發(fā)明得到的視頻描述更加邏輯流暢、語(yǔ)義連貫、清晰。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別是一種視頻編解碼方法及系統(tǒng)。
背景技術(shù)
目前,雖然人工智能中的深度學(xué)習(xí)算法能夠執(zhí)行視頻描述功能,使得視頻信息能輕松轉(zhuǎn)化為語(yǔ)言內(nèi)容。例如,在用戶觀看海量視頻信息之前,通過(guò)對(duì)視頻信息形成精準(zhǔn)的文字摘要讓用戶快速了解事件發(fā)展情況及其影響,將節(jié)省諸多時(shí)間成本。此外,將兩小時(shí)的電影抽取出精彩片段并將其轉(zhuǎn)化為總結(jié)電影的文字梗概,會(huì)給用戶帶來(lái)更加完美的推薦體驗(yàn)。但是,這種無(wú)差別的對(duì)視頻信息執(zhí)行描述的功能不能充分體現(xiàn)人類理解事物的想象力,好奇心和智慧,而這些本性一直是人類的核心。雖然可從大量視頻信息中提取文字信息,但供人們利用的高價(jià)值知識(shí)卻微乎其微。因此,一個(gè)優(yōu)秀的機(jī)器智能理解算法,應(yīng)該充分以人類思維模式敘述發(fā)生的事件,同時(shí)以人類為第一視角理解事物的發(fā)展規(guī)律,才能讓機(jī)器對(duì)視頻理解達(dá)到更加智能化的程度。
一般來(lái)說(shuō),視頻中發(fā)生的事件是緊密相連和具有因果關(guān)系的,而且這些事件正是執(zhí)行理解任務(wù)的源頭。這些事件從結(jié)束過(guò)渡到另一個(gè)新的事件大多是人類的行為所促使的。可以說(shuō)人類行為主導(dǎo)著事件的發(fā)展脈絡(luò),以及事件之間的起因與結(jié)果,故而跟隨人類行為探索事件的發(fā)展規(guī)律和加強(qiáng)事件理解因果關(guān)系十分必要。傳統(tǒng)的視頻理解方法難以充分考慮視頻各幀中的人類行為在時(shí)序上關(guān)聯(lián)性和事件發(fā)生的因果關(guān)系,且提取的全局時(shí)序特征中含有大量的冗余幀特征,不僅會(huì)耗損巨大的計(jì)算力,還使模型在訓(xùn)練階段變得收斂過(guò)慢,不能很好地從行為為線索的人類角度理解事物的發(fā)展規(guī)律,讓機(jī)器更智能地理解視頻。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是,針對(duì)現(xiàn)有技術(shù)不足,提供一種視頻編解碼方法及系統(tǒng),提高視頻理解任務(wù)的邏輯性和準(zhǔn)確性。
為解決上述技術(shù)問(wèn)題,本發(fā)明所采用的技術(shù)方案是:一種視頻編解碼方法,包括以下步驟:
S1、分別提取視頻幀序列的3D特征和2D特征;
S2、對(duì)所述3D特征進(jìn)行處理,獲得關(guān)鍵特征;將所述關(guān)鍵特征與所述2D特征按時(shí)間序列疊加,構(gòu)建融合特征;
S3、在時(shí)刻t對(duì)融合特征進(jìn)行編碼,通過(guò)softmax函數(shù)獲得歸一化權(quán)重,將融合特征與歸一化權(quán)重相乘,獲得新的融合特征;
S4、將新的融合特征輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)中,得到關(guān)于所述視頻幀序列的描述句子。
為了在視頻中構(gòu)建一個(gè)強(qiáng)大的特征表示,本發(fā)明不僅考慮了靜態(tài)圖像信息,還考慮了以時(shí)間為線索的動(dòng)態(tài)信息。因此,本發(fā)明提出了一種混合2D/3D卷積網(wǎng)絡(luò)。2D卷積網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)分別用于提取視頻幀的2D特征和3D特征,它們分別代表了靜態(tài)和動(dòng)態(tài)視頻信息。2D特征涵蓋環(huán)境、對(duì)象和人類行為之類的單幀特征信息,3D特征不僅彌補(bǔ)了解碼單幀特征時(shí)上下文信息的不足,還形成了長(zhǎng)時(shí)間間隔的事件特征表示,它不僅包含了事件在視覺(jué)特征上的時(shí)間關(guān)系,還增強(qiáng)了最終輸出的描述句的邏輯。將2D特征與經(jīng)處理的3D特征按時(shí)間序列疊加,實(shí)現(xiàn)靜態(tài)和動(dòng)態(tài)信息的深度融合。在時(shí)刻 t對(duì)融合特征進(jìn)行編碼,通過(guò)softmax函數(shù)獲得歸一化權(quán)重,可以為融合特征分配不同的權(quán)重,以學(xué)習(xí)以人為本的特征,從而促進(jìn)與人類行為相關(guān)的最終語(yǔ)言描述。LSTM可以學(xué)習(xí)長(zhǎng)期依賴性,非常適合處理與時(shí)序高度相關(guān)的問(wèn)題。因此,本發(fā)明使用LSTM網(wǎng)絡(luò)來(lái)解碼人類行為信息的特征,然后用文本來(lái)描述。
步驟S1中,利用3D卷積神經(jīng)網(wǎng)絡(luò)提取所述視頻幀序列的3D特征。3D卷積比2D卷積更適合于時(shí)空特征的學(xué)習(xí),3D卷積神經(jīng)網(wǎng)絡(luò)可以捕捉到視頻幀間的時(shí)間關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南大學(xué);手拉手信息技術(shù)有限公司,未經(jīng)中南大學(xué);手拉手信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110483437.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





