[發(fā)明專利]視頻處理的方法、裝置和存儲介質有效
| 申請?zhí)枺?/td> | 202010157708.3 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111209897B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設計)人: | 吳韜;徐敘遠;劉孟洋 | 申請(專利權)人: | 深圳市雅閱科技有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/774;G06V40/16;H04N5/265;G06V40/10 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 賈允 |
| 地址: | 518133 廣東省深圳市寶安區(qū)新安街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 處理 方法 裝置 存儲 介質 | ||
本發(fā)明涉及視頻處理方法、裝置和存儲介質。該方法包括:獲取待處理視頻和目標人體區(qū)域;檢測待處理視頻中的多個人體區(qū)域;將多個人體區(qū)域輸入經(jīng)訓練的特征提取網(wǎng)絡,得到分別描述多個人體區(qū)域的多個第一特征,和將目標人體區(qū)域輸入經(jīng)訓練的特征提取網(wǎng)絡,得到描述目標人體區(qū)域的第二特征;將多個第一特征分別與第二特征進行比較,得到與第二特征相匹配的至少一個第一匹配特征;確定至少一個第一匹配特征在待處理視頻中的所對應的各個時間點;基于各個時間點處理待處理視頻以獲取與目標對象關聯(lián)的視頻部分。特征提取網(wǎng)絡是使用基于人體區(qū)域樣本集合構建的數(shù)據(jù)集訓練的,且人體區(qū)域樣本集合是針對按照視頻拍攝鏡頭劃分的多個視頻分段分別生成的。
技術領域
本發(fā)明涉及深度學習和計算機視覺的技術領域,具體涉及視頻處理方法、裝置和存儲介質。
背景技術
隨著多媒體技術的發(fā)展,各種圖像及音視頻為人們的生活增添了諸多樂趣。人們在觀看視頻文件時,通常會選擇自己感興趣片段進行觀看。目前的視頻片段剪輯大體上基于某些特定類別或特定場景進行剪輯,比如基于體育視頻和游戲視頻中的特定鏡頭或文字提示(例如,體育視頻中的進球、射門,游戲視頻中的絕殺、五殺等)來判斷是否是精彩鏡頭,進而對視頻進行剪輯。人們還希望在一段視頻中僅觀看關于特定人物的段落。在這種情況下,相關技術通常通過人臉識別來判斷視頻畫面中的人物以完成針對該特定任務的剪輯。
發(fā)明內容
在通過人臉識別來識別包含特定人物的視頻片段的技術方案中,在某些情況下無法識別或者無法準確識別包含特定人物的視頻片段,例如當特定人物的面部不清晰、不完整,人物展現(xiàn)為側面、背面以及人物動作幅度較大(例如,打斗)等的時候,基于人臉識別來剪輯特定人物片段效果較差。本發(fā)明的實施例至少部分地解決上面提及的問題。
根據(jù)本發(fā)明的一方面,提出了一種視頻處理方法。該方法包括:獲取待處理視頻和表示目標對象的目標人體區(qū)域;檢測待處理視頻中的多個人體區(qū)域;將多個人體區(qū)域輸入經(jīng)訓練的特征提取網(wǎng)絡,得到分別描述多個人體區(qū)域的多個第一特征,和將目標人體區(qū)域輸入經(jīng)訓練的特征提取網(wǎng)絡,得到描述目標人體區(qū)域的第二特征;將多個第一特征分別與第二特征進行比較,得到與第二特征相匹配的第一特征中的至少一個第一匹配特征;確定至少一個第一匹配特征在待處理視頻中的所對應的各個時間點;基于各個時間點處理待處理視頻以獲取與目標對象關聯(lián)的視頻部分;其中,特征提取網(wǎng)絡是使用基于人體區(qū)域樣本集合構建的數(shù)據(jù)集進行訓練的,且人體區(qū)域樣本集合是針對按照視頻拍攝鏡頭劃分的多個視頻分段分別生成的。
在一些實施例中,數(shù)據(jù)集通過下述步驟構建:獲取用于特征提取網(wǎng)絡的訓練視頻;按照視頻拍攝鏡頭將訓練視頻劃分為多個訓練視頻分段;針對多個訓練視頻分段中的每一個訓練視頻分段,創(chuàng)建訓練視頻分段的一個或多個人體區(qū)域樣本集合;確定一個或多個人體區(qū)域樣本集合中是否包含人臉;響應于確定一個或多個人體區(qū)域樣本集合中的各個人體區(qū)域中包含人臉,基于人臉的特征對一個或多個人體區(qū)域樣本集合進行合并以構建訓練數(shù)據(jù)集。
在一些實施例中,針對多個訓練視頻分段中的每一個訓練視頻分段,創(chuàng)建訓練視頻分段的一個或多個人體區(qū)域樣本集合包括:針對多個訓練視頻分段中的每一個訓練視頻分段,每一個訓練視頻分段包含屬于相同視頻拍攝鏡頭的多個視頻幀,檢測多個視頻幀中的人體區(qū)域;判斷所檢測到的兩個或更多個人體區(qū)域之間的相似度;將相似度滿足預定閾值范圍的兩個或更多個人體區(qū)域加入到相同的集合中以生成訓練視頻分段的一個或多個人體區(qū)域樣本集合。
在一些實施例中,響應于確定一個或多個人體區(qū)域樣本集合中的各個人體區(qū)域中包含人臉,基于人臉的特征對一個或多個人體區(qū)域樣本集合進行合并以構建訓練數(shù)據(jù)集包括:響應于確定一個或多個人體區(qū)域樣本集合中的各個人體區(qū)域中包含人臉,從各個人體區(qū)域樣本集合中分別選取相同預定數(shù)量的人臉;對從各個人體區(qū)域樣本集合中所選取的人臉進行人臉相似度比較;將人臉相似度高于第一預定閾值的人體區(qū)域樣本集合進行合并以構建訓練數(shù)據(jù)集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市雅閱科技有限公司,未經(jīng)深圳市雅閱科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010157708.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





