[發明專利]一種基于端到端的水場景音頻的生成方法有效
| 申請號: | 201910091367.1 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109936766B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 劉世光;程皓楠;王凱 | 申請(專利權)人: | 天津大學 |
| 主分類號: | H04N21/439 | 分類號: | H04N21/439;G10L21/003 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 潘俊達 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 端到端 場景 音頻 生成 方法 | ||
1.一種基于端到端的水場景音頻的生成方法,其特征在于,包括如下步驟:
步驟一,選取各類水場景視頻,并進行預處理;
步驟二,根據預處理后的數據,通過訓練獲得生成器模型;
步驟三,將無聲視頻進行預處理,加載到訓練好的所述生成器模型,輸出與所述無聲視頻對應的音頻;
步驟四,根據所述音頻的序列生成包絡,并加載到訓練好的音色增強器模型,輸出音色增強后的所述音頻;
其中,步驟一中,所述預處理的方法,包括如下步驟,
A1、提取視頻幀的特征,獲取視頻的信息;
A2、將每秒視頻信息轉換為與音頻維度相同的向量;
步驟A2中,所述視頻信息轉換公式為,
;
其中 y1, ..., ym 代表所述視頻幀的顏色通道信息,每一個通道都是由介于0到255之間的數組成的矩陣,G(y1, ..., ym) 表示基于視頻幀生成的音頻信號的值,取值范圍為-1到1,
x1, ..., xn 表示視頻對應的音頻信號的值,變化范圍為-1到1;
步驟一中,預處理后的視頻幀產生的向量Vt可以表示為如下形式,
;
其中,表示連接操作,, ,和表示視頻和音頻的采樣率,分別為30和44100, 表示第t秒的第q幀所提取的特征, Floor表示向下取整;
聲音的生成任務可進一步表示為如下形式,
;
其中, 。
2.如權利要求1所述的一種基于端到端的水場景音頻的生成方法,其特征在于,步驟二中,所述生成器模型的訓練方法,包括如下步驟:
B1、輸入所述視頻信息的向量,通過所述生成器模型輸出音頻信號;
B2、評估所述音頻信號,若不對應,則反饋給所述生成器模型,并重新進行調整,直到輸出對應的音頻信號;若對應,則繼續進行下一個視頻信息的訓練。
3.如權利要求1所述的一種基于端到端的水場景音頻的生成方法,其特征在于,步驟四中,所述音色增強器模型的訓練方法,包括如下步驟:
C1、輸入目標音頻的包絡,通過所述音色增強器模型輸出所述音頻的序列;
C2、評估所述音頻的序列,若不是目標序列,則反饋給所述音色增強器模型,并重新進行調整,直到輸出目標音頻的序列;若是目標序列,則繼續進行下一個音色增強訓練。
4.如權利要求1所述的一種基于端到端的水場景音頻的生成方法,其特征在于,步驟四中,所述包絡的生成方法,包括如下步驟:
D1、輸入一段音頻序列
D2、取音頻序列
D3、所有采樣間隔內的包絡點pi連接而成的數組Ep,經過線性插值形成長度與
E(1 :len) = interp( max p1,……pLstep ⊕ ... ⊕ max plen ? Lstep + 1,……plen ) ,
其中,Pi ? GV ,interp()表示線性插值,⊕表示連接操作。
5.如權利要求2所述的一種基于端到端的水場景音頻的生成方法,其特征在于,步驟二中,輸出所述音頻信號所使用的損失函數為:
,
其中,λ = 100,其中,X表示聲音真實值,V表示視頻幀信息,G表示生成器生成的結果,D表示評估的結果,E表示求均值。
6.如權利要求2所述的一種基于端到端的水場景音頻的生成方法,其特征在于,步驟二中,評估所述音頻信號所使用的損失函數為:
,
其中,V表示視頻幀信息,G表示生成器生成的結果,D表示評估的結果,E表示求均值。
7.如權利要求1所述的一種基于端到端的水場景音頻的生成方法,其特征在于,所述水場景音頻的生成方法基于GAN網絡,所述GAN網絡包括生成器、辨別器及音色增強器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910091367.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動分析機頂盒衛星節目信息的方法
- 下一篇:一種影像分析系統與方法





