[發(fā)明專利]視頻處理方法、裝置、介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202210101143.6 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114466240A | 公開(公告)日: | 2022-05-10 |
| 發(fā)明(設(shè)計)人: | 陳奕名;張建鑫 | 申請(專利權(quán))人: | 北京精鴻軟件科技有限公司 |
| 主分類號: | H04N21/439 | 分類號: | H04N21/439;H04N21/4402;H04N21/472;G10L15/16;G10L15/22;G10L15/25;G10L15/26;G09B5/06;G06V40/16;G06V10/82;G06V10/774;G06N3/04;G06N3/08 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 處理 方法 裝置 介質(zhì) 電子設(shè)備 | ||
1.一種視頻處理方法,其特征在于,所述方法包括:
獲取錄制的教學(xué)視頻;
確定所述教學(xué)視頻中與目標用戶對應(yīng)的目標視頻;
提取所述目標視頻中的視頻講述者的唇部區(qū)域圖像;
確定所述唇部區(qū)域圖像對應(yīng)的關(guān)鍵幀圖像;
根據(jù)所述關(guān)鍵幀圖像和所述目標用戶對應(yīng)的目標幀圖像,對所述教學(xué)視頻進行處理,以獲得更新后的教學(xué)視頻。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述教學(xué)視頻包括通過紅外攝像裝置獲得的紅外視頻和通過光學(xué)攝像裝置獲得的光學(xué)視頻,所述紅外攝像裝置和所述光學(xué)攝像裝置預(yù)先進行圖像配準;
所述提取所述目標視頻中的視頻講述者的唇部區(qū)域圖像,包括:
基于相同的圖像幀抽取方式分別對所述目標視頻對應(yīng)的紅外視頻和所述光學(xué)視頻中進行圖像幀抽取,獲得目標圖像幀對,其中,每一所述目標圖像幀對中包含紅外視頻幀和與該紅外視頻對應(yīng)的光學(xué)視頻幀;
針對每一所述目標圖像幀對,根據(jù)所述目標圖像幀對中的紅外視頻幀確定唇部區(qū)域的位置信息,并基于確定出的位置信息從所述目標圖像幀對中的光學(xué)視頻幀中提取唇部區(qū)域圖像。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述目標圖像幀對中的紅外視頻幀確定唇部區(qū)域的位置信息,包括:
檢測所述紅外視頻幀的第一目標特征點和第二目標特征點,其中,所述第一目標特征點用于表征唇部區(qū)域的上下邊界點,所述第二目標特征點用于表示所述唇部區(qū)域的左右邊界點;
基于所述紅外攝像裝置和所述光學(xué)攝像裝置對應(yīng)的圖像配準信息,對確定出的所述第一目標特征點和第二目標特征點分別對應(yīng)的位置信息進行坐標轉(zhuǎn)換,獲得所述唇部區(qū)域的位置信息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述唇部區(qū)域圖像對應(yīng)的關(guān)鍵幀圖像,包括:
將所述唇部區(qū)域圖像輸入關(guān)鍵幀識別模型,以基于所述關(guān)鍵幀識別模型的多個卷積層的卷積核對所述唇部圖像進行卷積特征提取,并基于提取出的卷積特征獲得所述唇部區(qū)域圖像對應(yīng)的關(guān)鍵幀向量,其中,所述關(guān)鍵幀識別模型基于全卷積網(wǎng)絡(luò)獲得,所述多個卷積層包括串聯(lián)的至少一個橫向卷積層和至少一個縱向卷積層;
根據(jù)所述關(guān)鍵幀向量和所述唇部區(qū)域圖像,確定所述關(guān)鍵幀圖像。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,通過以下方式基于所述關(guān)鍵幀識別模型的多個卷積層的卷積核對所述唇部圖像進行卷積特征提取:
若當前的卷積層為橫向卷積層,則將所述橫向卷積層的卷積核中偶數(shù)行對應(yīng)的數(shù)值進行取負值操作,獲得更新后的橫向卷積核,并基于所述橫向卷積核對目標圖像進行卷積特征提取;
若當前的卷積層為縱向卷積層,則將所述縱向卷積層的卷積核中偶數(shù)列對應(yīng)的數(shù)值進行取負值操作,獲得更新后的縱向卷積核,并基于所述縱向卷積核對目標圖像進行卷積特征提取;
其中,若當前的卷積層為所述多個卷積層中的第一個卷積層,所述目標圖像為所述唇部區(qū)域圖像,若當前的卷積層不是所述第一個卷積層,所述目標圖像為當前的卷積層的上一卷積層的輸出圖像。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述關(guān)鍵幀向量和所述唇部區(qū)域圖像,確定所述關(guān)鍵幀圖像,包括:
根據(jù)所述關(guān)鍵幀向量對應(yīng)的圖像序列的長度對所述唇部區(qū)域圖像進行分組,獲取至少一個分組,其中,所述關(guān)鍵幀向量中的元素與所述分組一一對應(yīng);
針對每一所述分組,根據(jù)所述分組中的圖像、該分組在所述關(guān)鍵幀向量中對應(yīng)的元素,確定所述分組中的目標圖像,其中,所述關(guān)鍵幀圖像包括每一所述分組中的目標圖像。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述教學(xué)視頻中與目標用戶對應(yīng)的目標視頻,包括:
獲取所述教學(xué)視頻對應(yīng)的目標音頻信息;
對所述目標音頻信息進行語音識別,獲得所述教學(xué)視頻對應(yīng)的文本信息;
確定所述文本信息中檢測到的目標文本所對應(yīng)的目標時段,并將所述目標時段對應(yīng)的教學(xué)視頻確定為所述目標視頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京精鴻軟件科技有限公司,未經(jīng)北京精鴻軟件科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210101143.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





