[發(fā)明專利]一種基于Transformer的視頻片段分割方法在審
| 申請?zhí)枺?/td> | 202111120509.6 | 申請日: | 2021-09-24 |
| 公開(公告)號: | CN113837083A | 公開(公告)日: | 2021-12-24 |
| 發(fā)明(設計)人: | 呂晨;房鵬展 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 視頻 片段 分割 方法 | ||
1.一種基于Transformer的視頻片段分割方法,其特征在于,對數(shù)據(jù)源采樣及標注,構建及訓練模型,使用模型,所述數(shù)據(jù)源包括視頻及語音,具體步驟包括:
步驟S1,對數(shù)據(jù)源采樣及標注,將視頻時長調整至預設時長,對視頻的畫面采樣獲得采樣圖片,對視頻的語音采樣獲得采樣語音,將采樣圖片與采樣語音對應并標注分割標簽;
步驟S2:構建及訓練transformer模型,將采樣圖片與采樣語音輸入卷積神經網絡,所述卷積神經網絡包括圖片特征抽取網絡和語音信號讀取網絡,提取采樣圖片的卷積特征和采樣語音的MFCC特征,對采樣圖片的卷積特征和采樣語音的MFCC特征進行拼接并融合位置特征,獲得相應的序列,將所述序列輸入預設的transformer模型進行訓練;
步驟S3:transformer模型的使用,通過步驟S1處理目標視頻,將處理的結果輸入步驟S2訓練的transformer模型,得到目標視頻的切割預測標簽,根據(jù)切割預測標簽對目標視頻進行切分。
2.如權利要求1所述的一種基于Transformer的視頻片段分割方法,其特征在于:所述步驟S1具體包括:
步驟S1-1,所述將視頻時長調整至預設時長包括,對于低于預設時長的視頻,采用空白畫面和空白語音補全,對于大于預設時長的視頻,采用倍速壓縮至預設時長,記錄壓縮倍速率用于還原位置;
步驟S1-2,對視頻采用抽幀采樣獲得采樣圖片,每秒采樣一張,對語音采用逐秒采樣,每秒的采樣語音再細分成預設段落數(shù)的語音片段,對應采樣圖片及相應的語音片段,獲得具有采樣圖片及語音片段的視頻片段;
步驟S1-3,對視頻片段進行標注,獲得分割標簽;
所述步驟S2具體包括:
步驟S2-4,將采樣圖片縮放到預設的固定尺寸,輸入圖片特征抽取網絡,提取相應的卷積特征;
步驟S2-5,將語音片段輸入語音信號讀取網絡,提取相應的MFCC特征;
步驟S2-6,將采樣圖片的卷積特征和語音片段的MFCC特征進行拼接,融合位置特征,得到由視頻片段組成的數(shù)據(jù)源的序列;
步驟S2-7,將所述序列輸入預設的transformer模型,通過多頭的encoder-decoder結構對輸入進行編碼和解碼,得到每個視頻片段的特征向量;
步驟S2-8,將所述特征向量送入分類層,得到對應的預測分割標簽,對比步驟S1-3中標注的分割標簽,計算兩者的交叉熵損失,根據(jù)最小化損失原則,通過神經網絡反向傳播算法訓練模型,更新模型參數(shù);
所述步驟S3具體包括:
步驟S3-9,將目標視頻通過步驟S1-1和S1-2,得到包含視頻片段的數(shù)據(jù)源;
步驟S3-10,將所述視頻片段中對應的采樣圖片和語音片段分別輸入步驟S2-4和S2-5,得到對應的卷積特征和MFCC特征;
步驟S3-11,將采樣圖片的卷積特征和語音片段的MFCC特征按步驟S2-6拼接,融合位置特征,輸入訓練并更新了模型參數(shù)的transformer模型,得到視頻片段的切割預測標簽,根據(jù)切割預測標簽和視頻的壓縮倍速率將數(shù)據(jù)源切分,得到原始視頻各時間點的預測結果。
3.如權利要求2所述的一種基于Transformer的視頻片段分割方法,其特征在于:所述步驟S1-1中,視頻的預設時長為15分鐘,所述每秒的采樣語音的預設段落數(shù)為40。
4.如權利要求3所述的一種基于Transformer的視頻片段分割方法,其特征在于:所述步驟S1-3中,選取1000個視頻片段標注分割標簽,對視頻片段的序列根據(jù)類別標注片段屬性,所述片段屬性包括開始、中間、結束。
5.如權利要求4所述的一種基于Transformer的視頻片段分割方法,其特征在于:所述步驟S2-4中,所述預設的固定尺寸為224*224,在圖片特征抽取網絡中,選取Res2Net50作為骨干網絡,在Res2Net50的avgpooling層后增加一個全連接層,所述全連接層的特征維度為512,使用ImageNet數(shù)據(jù)的預訓練模型對圖片特征抽取網絡的參數(shù)進行微調。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111120509.6/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經網絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





