[發明專利]一種基于Transformer的視頻片段分割方法在審
| 申請號: | 202111120509.6 | 申請日: | 2021-09-24 |
| 公開(公告)號: | CN113837083A | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 呂晨;房鵬展 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210032 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 視頻 片段 分割 方法 | ||
本發明公開了一種基于Transformer的視頻片段分割方法,其特征在于,對視頻的畫面和語音采樣獲得采樣圖片和采樣語音,將采樣圖片與采樣語音對應并標注分割標簽;輸入卷積神經網絡,提取采樣圖片的卷積特征和采樣語音的MFCC特征,對兩者進行拼接并融合位置特征,獲得相應的序列,輸入transformer模型進行訓練;使用模型,得到目標視頻的切割預測標簽,根據切割預測標簽對目標視頻進行切分。本發明充分利用transformer模型結構對長序列建模的優勢,將視頻片段分割轉化為序列標注問題,進一步將視頻通過序列標注結果進行分割成多個片段,達到將視頻逐秒標注,并根據標注結果將視頻分割成多個片段的效果。
技術領域
本發明涉及視頻分割領域,特別是涉及一種基于Transformer的視頻片段分割方法。
背景技術
目前,電商領域廣泛使用視頻作為宣傳手段,例如在云展會上播放廠家展示視頻等,對于買家而言,希望能精確定位到視頻某一片段,查看自己所需信息,例如廠家資質介紹或某件產品介紹,但由于各商家視頻長度,結構各不相同,因此片段分割較為困難。
傳統的視頻片段分割主要依靠視頻幀圖像的差異度進行切分,并沒有將視頻中語音信息及整個視頻的序列信息考慮其中,切分的片段較為瑣碎,分段價值不高。
因此需要一種能聯合視頻中圖片語音信息及視頻序列信息的分割方法,將視頻根據聯合的信息合理分割,并給出各分割片段具體類別。
發明內容
本發明所要解決的技術問題是克服現有技術的不足,提供一種基于Transformer的視頻片段分割方法。
為解決上述技術問題,本發明提供一種基于Transformer的視頻片段分割方法,其特征在于,對數據源采樣及標注,構建及訓練模型,使用模型,所述數據源包括視頻及語音,具體步驟包括:
步驟S1,對數據源采樣及標注,將視頻時長調整至預設時長,對視頻的畫面采樣獲得采樣圖片,對視頻的語音采樣獲得采樣語音,將采樣圖片與采樣語音對應并標注分割標簽;
步驟S2:構建及訓練transformer模型,將采樣圖片與采樣語音輸入卷積神經網絡,所述卷積神經網絡包括圖片特征抽取網絡和語音信號讀取網絡,提取采樣圖片的卷積特征和采樣語音的MFCC特征,對采樣圖片的卷積特征和采樣語音的MFCC特征進行拼接并融合位置特征,獲得相應的序列,將所述序列輸入預設的transformer模型進行訓練;
步驟S3:transformer模型的使用,通過步驟S1處理目標視頻,將處理的結果輸入步驟S2訓練的transformer模型,得到目標視頻的切割預測標簽,根據切割預測標簽對目標視頻進行切分。
所述步驟S1具體包括:
步驟S1-1,所述將視頻時長調整至預設時長包括,對于低于預設時長的視頻,采用空白畫面和空白語音補全,對于大于預設時長的視頻,采用倍速壓縮至預設時長,記錄壓縮倍速率用于還原位置;
步驟S1-2,對視頻采用抽幀采樣獲得采樣圖片,每秒采樣一張,對語音采用逐秒采樣,每秒的采樣語音再細分成預設段落數的語音片段,對應采樣圖片及相應的語音片段,獲得具有采樣圖片及語音片段的視頻片段;
步驟S1-3,對視頻片段進行標注,獲得分割標簽;
所述步驟S2具體包括:
步驟S2-4,將采樣圖片縮放到預設的固定尺寸,輸入圖片特征抽取網絡,提取相應的卷積特征;
步驟S2-5,將語音片段輸入語音信號讀取網絡,提取相應的MFCC特征;
步驟S2-6,將采樣圖片的卷積特征和語音片段的MFCC特征進行拼接,融合位置特征,得到由視頻片段組成的數據源的序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111120509.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:緊湊型城市空氣質量智慧預測方法及裝置
- 下一篇:醫療影像評價方法及系統
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





