[發明專利]視頻識別物體獲取音頻方法、系統、裝置及可讀存儲介質有效
| 申請號: | 202010518577.7 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111681680B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 薛媛;金若熙 | 申請(專利權)人: | 杭州星合尚世影視傳媒有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/54;G10L25/57;G06V20/40;G06N3/0464;G06N3/08 |
| 代理公司: | 杭州五洲普華專利代理事務所(特殊普通合伙) 33260 | 代理人: | 張瑜 |
| 地址: | 310000 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 識別 物體 獲取 音頻 方法 系統 裝置 可讀 存儲 介質 | ||
1.一種視頻識別物體獲取音頻方法,其特征在于,包括以下步驟:
基于待處理視頻的相關信息設置抽幀頻率,抽取視頻關鍵幀并生成幀圖流;
采用深度卷積神經網絡模型對所述幀圖流進行模塊化多物體識別,得到模塊化的特定發聲物體;
對模塊化的特定發聲物體通過深度殘差網絡模型進行至少二次識別分析處理,得到特定發聲物體的種類;
基于特定發聲物體的種類提取其發聲特征,基于發聲特征構建特定發聲物體的物體類別和特定發聲物體音頻,其中,音頻包括音頻介紹和音頻關鍵詞;
基于特定發聲物體的物體類別、音頻介紹以及音頻關鍵詞進行分數匹配處理分別得到第一匹配分數和神經網絡匹配分數;
基于第一匹配分數和神經網絡匹配分數得到視頻音頻匹配分數,根據視頻音頻匹配分數得到特定發聲物體至少一種合適的音頻;
音頻介紹為音頻的介紹內容文本,音頻關鍵詞包括至少三個描述音頻的詞語,所述描述音頻的詞語包括特定發聲物體的類別名稱和發聲聲音的類別名稱;
所述基于特定發聲物體的物體類別、音頻介紹以及音頻關鍵詞進行分數匹配處理分別得到第一匹配分數和神經網絡匹配分數,具體為:
對特定發聲物體的物體類別和音頻介紹進行分詞處理得到單詞;
分別獲取特定發聲物體的物體類別與音頻介紹、音頻關鍵詞重合的單詞比例,得到第一比例和第二比例,將第一比例和第二比例進行加權平均處理,得到單詞匹配分數,所述單詞匹配分數=物體類別和音頻介紹的單詞重合比例*音頻介紹權重+物體類別和音頻關鍵詞單詞重合比例*音頻關鍵詞權重,其中,音頻介紹權重+音頻關鍵詞權重=1;
基于音頻介紹的統計數據,得到物體類別TF-IDF向量,通過物體類別TF-IDF向量與音頻介紹TF-IDF向量的第一余弦相似度,將第一余弦相似度作為TF-IDF匹配分數,所述TF-IDF匹配分數=cosine_similarity(物體類別TF-IDF向量,音頻介紹TF-IDF向量);
將單詞匹配分數和TF-IDF匹配分數進行加權平均處理,得到第一匹配分數,所述第一匹配分數=單詞匹配分數*單詞權重+TF-IDF匹配分數*TF-IDF權重,其中,單詞權重+TF-IDF權重=1;
獲取特定發聲物體的物體類別的BERT向量和音頻介紹的BERT向量,經過計算得到BERT向量的余弦相似度,將余弦相似度作為神經網絡匹配分數。
2.根據權利要求1所述的視頻識別物體獲取音頻方法,其特征在于,所述深度殘差網絡模型獲得過程如下:
獲取若干包含特定發聲物體的圖像,剔除不合格的特定發聲物體的圖像,得到合格特定發聲物體的圖像;
將合格特定發聲物體的圖像進行預處理,得到合格特定發聲物體的圖像數據集,并劃分為訓練集和驗證集;
將訓練集輸入至初始深度殘差網絡模型中進行訓練,再通過驗證集對訓練結果進行進行驗證,得到能夠獲取到特定發聲物體的種類的深度殘差網絡模型。
3.根據權利要求1所述的視頻識別物體獲取音頻方法,其特征在于,所述基于第一匹配分數和神經網絡匹配分數得到視頻音頻匹配分數,具體為:
將第一匹配分數和神經網絡匹配分數進行加權平均處理,得到視頻音頻匹配分數,所述視頻音頻匹配分數=第一匹配分數*第一權重+神經網絡匹配分數*神經網絡權重,其中,第一權重+神經網絡權重=1。
4.根據權利要求1所述的視頻識別物體獲取音頻方法,其特征在于,所述根據視頻音頻匹配分數得到特定發聲物體的一種或者幾種合適音頻步驟之后還包括:
根據視頻音頻匹配分數將特定發聲物體與選擇的音頻進行搜索匹配,使得音頻介紹、音頻關鍵詞與特定發聲物體的物體類別相互匹配;
將所有音頻進行混音處理,形成完整的音頻文件,將音頻文件添加進視頻的音軌使得音頻文件和視頻同步。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州星合尚世影視傳媒有限公司,未經杭州星合尚世影視傳媒有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010518577.7/1.html,轉載請聲明來源鉆瓜專利網。





