[發(fā)明專利]視頻物體識別構(gòu)建音頻方法、系統(tǒng)、裝置及可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010517903.2 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111681676B | 公開(公告)日: | 2023-08-08 |
| 發(fā)明(設計)人: | 薛媛;金若熙 | 申請(專利權(quán))人: | 杭州星合尚世影視傳媒有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/54;G10L25/57;G06F18/22;G06V20/40;G06V10/82;G06N3/045;G06N3/0464;G06N3/08;G06N3/088;G06N20/20 |
| 代理公司: | 杭州五洲普華專利代理事務所(特殊普通合伙) 33260 | 代理人: | 張瑜 |
| 地址: | 310000 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 物體 識別 構(gòu)建 音頻 方法 系統(tǒng) 裝置 可讀 存儲 介質(zhì) | ||
1.一種視頻物體識別構(gòu)建音頻方法,其特征在于,包括以下步驟:
基于待處理視頻的相關(guān)信息設置抽幀頻率,抽取視頻關(guān)鍵幀并生成幀圖流;
采用深度卷積神經(jīng)網(wǎng)絡模型對所述幀圖流進行模塊化多物體識別,得到模塊化的特定發(fā)聲物體;
對模塊化的特定發(fā)聲物體通過深度殘差網(wǎng)絡模型進行至少二次識別分析處理,得到特定發(fā)聲物體的種類;
基于特定發(fā)聲物體的種類提取其發(fā)聲特征并構(gòu)建特定發(fā)聲物體的物體類別和特定發(fā)聲物體合適的音頻;
音頻包括音頻介紹和音頻關(guān)鍵詞,音頻介紹為音頻的介紹內(nèi)容文本,音頻關(guān)鍵詞包括至少三個描述音頻的詞語,所述描述音頻的詞語包括特定發(fā)聲物體的類別名稱和發(fā)聲聲音的類別名稱;
所述基于特定發(fā)聲物體的種類提取其發(fā)聲特征并構(gòu)建特定發(fā)聲物體的物體類別和特定發(fā)聲物體合適的音頻,具體步驟為:
基于特定發(fā)聲物體的物體類別、音頻介紹以及音頻關(guān)鍵詞進行分數(shù)匹配處理分別得到第一匹配分數(shù)和神經(jīng)網(wǎng)絡匹配分數(shù);
基于第一匹配分數(shù)和神經(jīng)網(wǎng)絡匹配分數(shù)得到視頻音頻匹配分數(shù),根據(jù)視頻音頻匹配分數(shù)得到特定發(fā)聲物體至少一種合適的音頻;
所述基于特定發(fā)聲物體的物體類別、音頻介紹以及音頻關(guān)鍵詞進行分數(shù)匹配處理分別得到第一匹配分數(shù)和神經(jīng)網(wǎng)絡匹配分數(shù),具體步驟如下:
對特定發(fā)聲物體的物體類別和音頻介紹進行分詞處理得到單詞;
分別獲取特定發(fā)聲物體的物體類別與音頻介紹、音頻關(guān)鍵詞重合的單詞比例,得到第一比例和第二比例,將第一比例和第二比例進行加權(quán)平均處理,得到單詞匹配分數(shù),所述單詞匹配分數(shù)=物體類別和音頻介紹的單詞重合比例*音頻介紹權(quán)重+物體類別和音頻關(guān)鍵詞單詞重合比例*音頻關(guān)鍵詞權(quán)重,其中,音頻介紹權(quán)重+音頻關(guān)鍵詞權(quán)重=1;
基于音頻介紹的統(tǒng)計數(shù)據(jù),得到物體類別TF-IDF向量,通過物體類別TF-IDF向量與音頻介紹TF-IDF向量的第一余弦相似度,將第一余弦相似度作為TF-IDF匹配分數(shù),所述TF-IDF匹配分數(shù)=cosine_similarity(物體類別TF-IDF向量,音頻介紹TF-IDF向量);
將單詞匹配分數(shù)和TF-IDF匹配分數(shù)進行加權(quán)平均處理,得到第一匹配分數(shù),所述第一匹配分數(shù)=單詞匹配分數(shù)*單詞權(quán)重+TF-IDF匹配分數(shù)*TF-IDF權(quán)重,其中,單詞權(quán)重+TF-IDF權(quán)重=1;
獲取特定發(fā)聲物體的物體類別的BERT向量和音頻介紹的BERT向量,經(jīng)過計算得到BERT向量的余弦相似度,將余弦相似度作為神經(jīng)網(wǎng)絡匹配分數(shù)。
2.根據(jù)權(quán)利要求1所述的視頻物體識別構(gòu)建音頻方法,其特征在于,所述深度殘差網(wǎng)絡模型獲得過程如下:
獲取若干包含特定發(fā)聲物體的圖像,剔除不合格的特定發(fā)聲物體的圖像,得到合格特定發(fā)聲物體的圖像;
將合格特定發(fā)聲物體的圖像進行預處理,得到合格特定發(fā)聲物體的圖像數(shù)據(jù)集,并劃分為訓練集和驗證集;
將訓練集輸入至初始深度殘差網(wǎng)絡模型中進行訓練,再通過驗證集對訓練結(jié)果進行進行驗證,得到能夠獲取到特定發(fā)聲物體的種類的深度殘差網(wǎng)絡模型。
3.根據(jù)權(quán)利要求1所述的視頻物體識別構(gòu)建音頻方法,其特征在于,所述基于第一匹配分數(shù)和神經(jīng)網(wǎng)絡匹配分數(shù)得到視頻音頻匹配分數(shù),具體為:
將第一匹配分數(shù)和神經(jīng)網(wǎng)絡匹配分數(shù)進行加權(quán)平均處理,得到視頻音頻匹配分數(shù),所述視頻音頻匹配分數(shù)=第一匹配分數(shù)*第一權(quán)重+神經(jīng)網(wǎng)絡匹配分數(shù)*神經(jīng)網(wǎng)絡權(quán)重,其中,第一權(quán)重+神經(jīng)網(wǎng)絡權(quán)重=1。
4.根據(jù)權(quán)利要求1所述的視頻物體識別構(gòu)建音頻方法,其特征在于,所述基于特定發(fā)聲物體的種類提取其發(fā)聲特征并構(gòu)建特定發(fā)聲物體的物體類別和特定發(fā)聲物體合適的音頻,還包括如下步驟:
根據(jù)視頻音頻匹配分數(shù)將特定發(fā)聲物體與選擇的音頻進行搜索匹配,使得音頻介紹、音頻關(guān)鍵詞與特定發(fā)聲物體的物體類別相互匹配;
將所有音頻進行混音處理,形成完整的音頻文件,將音頻文件添加進視頻的音軌使得音頻文件和視頻同步。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州星合尚世影視傳媒有限公司,未經(jīng)杭州星合尚世影視傳媒有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010517903.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設備
- 并行構(gòu)建的方法、裝置及設備
- 構(gòu)建肺癌預測模型構(gòu)建方法





