[發(fā)明專利]視頻識別物體獲取音頻方法、系統(tǒng)、裝置及可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010518577.7 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111681680B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 薛媛;金若熙 | 申請(專利權(quán))人: | 杭州星合尚世影視傳媒有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/54;G10L25/57;G06V20/40;G06N3/0464;G06N3/08 |
| 代理公司: | 杭州五洲普華專利代理事務(wù)所(特殊普通合伙) 33260 | 代理人: | 張瑜 |
| 地址: | 310000 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 識別 物體 獲取 音頻 方法 系統(tǒng) 裝置 可讀 存儲 介質(zhì) | ||
本發(fā)明公開視頻識別物體獲取音頻方法,基于待處理視頻的相關(guān)信息設(shè)置抽幀頻率,抽取視頻關(guān)鍵幀并生成幀圖流;采用深度卷積神經(jīng)網(wǎng)絡(luò)模型對所述幀圖流進(jìn)行模塊化多物體識別,得到模塊化的特定發(fā)聲物體;對模塊化的特定發(fā)聲物體通過深度殘差網(wǎng)絡(luò)模型進(jìn)行識別分析處理,得到特定發(fā)聲物體的種類;基于特定發(fā)聲物體的種類提取其發(fā)聲特征并構(gòu)建特定發(fā)聲物體的物體類別和特定發(fā)聲物體音頻;分別得到第一匹配分?jǐn)?shù)和神經(jīng)網(wǎng)絡(luò)匹配分?jǐn)?shù),進(jìn)而得到視頻音頻匹配分?jǐn)?shù),根據(jù)視頻音頻匹配分?jǐn)?shù)得到特定發(fā)聲物體至少一種合適的音頻。先對待處理視頻進(jìn)行處理得到特定發(fā)聲物體,再給特定發(fā)聲物體選擇合適音頻,后續(xù)可以給視頻進(jìn)行配音或者將這個音頻做其他用途使用。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,尤其涉及一種視頻識別物體獲取音頻方法、系統(tǒng)、裝置及可讀存儲介質(zhì)。
背景技術(shù)
目前,隨著科技的發(fā)展,多媒體音視頻技術(shù)被廣發(fā)的應(yīng)用在各個領(lǐng)域中,給視頻中特定發(fā)聲物體配好音效會給觀眾代來更好的感受,有助于觀眾對各個領(lǐng)域的理解與認(rèn)知,如何制作出好看的視頻顯得更加重要。
在現(xiàn)有視頻處理的技術(shù)中,包括對視頻的剪輯、特效、字幕或者添加音頻素材等,都是獨(dú)立進(jìn)行的,比如給視頻的特定發(fā)聲物體進(jìn)行擬音,一般都是通過擬音師進(jìn)行擬音,要么是和視頻同步擬音,要么是先錄制好視頻,再對特定發(fā)聲物體進(jìn)行擬音然后進(jìn)行添加,或者是現(xiàn)場可以讓人進(jìn)行擬音直接錄制在視頻中,但是而視頻中除了人物之外的聲音就很難去匹配,現(xiàn)在都是通過擬音師把拍攝現(xiàn)場沒有完成的聲音部分,通過后期再進(jìn)行制作,比如腳步聲、開關(guān)門聲、倒水聲等擬好匹配到視頻中。
傳統(tǒng)的給給視頻中的特定發(fā)生物體去匹配特效的方式比較慢并且準(zhǔn)確率不高,比如單個的特定發(fā)聲物體的音效和實(shí)際的聲音是差距很大的,比如,鞋子踩在地面的聲音,如果通過擬音師去擬音,由于鞋子不同,地面不同,需要擬很多特效音,萬一不夠準(zhǔn)確會使得觀眾的感受不好,而現(xiàn)有技術(shù)中又不存在直接構(gòu)建出特效音頻,大部分都是事先錄制好再去匹配給視頻中的特定發(fā)聲物體,導(dǎo)致工作人員的工作量很大,需要花費(fèi)大量的時間,而且操作方式極不靈活。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中的缺點(diǎn),提供了一種視頻識別物體獲取音頻方法、系統(tǒng)、裝置及可讀存儲介質(zhì)。
為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:
一種視頻識別物體獲取音頻方法,包括以下步驟:
基于待處理視頻的相關(guān)信息設(shè)置抽幀頻率,抽取視頻關(guān)鍵幀并生成幀圖流;
采用深度卷積神經(jīng)網(wǎng)絡(luò)模型對所述幀圖流進(jìn)行模塊化多物體識別,得到模塊化的特定發(fā)聲物體;
對模塊化的特定發(fā)聲物體通過深度殘差網(wǎng)絡(luò)模型進(jìn)行至少二次識別分析處理,得到特定發(fā)聲物體的種類;
基于特定發(fā)聲物體的種類提取其發(fā)聲特征,基于發(fā)聲特征構(gòu)建特定發(fā)聲物體的物體類別和特定發(fā)聲物體音頻,其中,音頻包括音頻介紹和音頻關(guān)鍵詞;
基于特定發(fā)聲物體的物體類別、音頻介紹以及音頻關(guān)鍵詞進(jìn)行分?jǐn)?shù)匹配處理分別得到第一匹配分?jǐn)?shù)和神經(jīng)網(wǎng)絡(luò)匹配分?jǐn)?shù);
基于第一匹配分?jǐn)?shù)和神經(jīng)網(wǎng)絡(luò)匹配分?jǐn)?shù)得到視頻音頻匹配分?jǐn)?shù),根據(jù)視頻音頻匹配分?jǐn)?shù)得到特定發(fā)聲物體至少一種合適的音頻。
作為一種可實(shí)施方式,所述深度殘差網(wǎng)絡(luò)模型獲得過程如下:
獲取若干包含特定發(fā)聲物體的圖像,剔除不合格的特定發(fā)聲物體的圖像,得到合格特定發(fā)聲物體的圖像;
將合格特定發(fā)聲物體的圖像進(jìn)行預(yù)處理,得到合格特定發(fā)聲物體的圖像數(shù)據(jù)集,并劃分為訓(xùn)練集和驗(yàn)證集;
將訓(xùn)練集輸入至初始深度殘差網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,再通過驗(yàn)證集對訓(xùn)練結(jié)果進(jìn)行進(jìn)行驗(yàn)證,得到能夠獲取到特定發(fā)聲物體的種類的深度殘差網(wǎng)絡(luò)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州星合尚世影視傳媒有限公司,未經(jīng)杭州星合尚世影視傳媒有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010518577.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





