[發明專利]一種基于端到端的水場景音頻的生成方法有效

申請號：	201910091367.1	申請日：	2019-01-30
公開（公告）號：	CN109936766B	公開（公告）日：	2021-04-13
發明（設計）人：	劉世光;程皓楠;王凱	申請（專利權）人：	天津大學
主分類號：	H04N21/439	分類號：	H04N21/439;G10L21/003
代理公司：	天津市北洋有限責任專利代理事務所 12201	代理人：	潘俊達
地址：	300072***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于端到端場景音頻生成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于端到端的水場景音頻的生成方法，其特征在于，包括如下步驟：

步驟一，選取各類水場景視頻，并進行預處理；

步驟二，根據預處理后的數據，通過訓練獲得生成器模型；

步驟三，將無聲視頻進行預處理，加載到訓練好的所述生成器模型，輸出與所述無聲視頻對應的音頻；

步驟四，根據所述音頻的序列生成包絡，并加載到訓練好的音色增強器模型，輸出音色增強后的所述音頻；

其中，步驟一中，所述預處理的方法，包括如下步驟，

A1、提取視頻幀的特征，獲取視頻的信息；

A2、將每秒視頻信息轉換為與音頻維度相同的向量；

步驟A2中，所述視頻信息轉換公式為，

；

其中 y1, ..., ym 代表所述視頻幀的顏色通道信息，每一個通道都是由介于0到255之間的數組成的矩陣，G(y1, ..., ym) 表示基于視頻幀生成的音頻信號的值，取值范圍為-1到1，

x1, ..., xn 表示視頻對應的音頻信號的值，變化范圍為-1到1；

步驟一中，預處理后的視頻幀產生的向量Vt可以表示為如下形式，

；

其中，表示連接操作，，，和表示視頻和音頻的采樣率，分別為30和44100，表示第t秒的第q幀所提取的特征， Floor表示向下取整；

聲音的生成任務可進一步表示為如下形式，

；

其中，。

2.如權利要求1所述的一種基于端到端的水場景音頻的生成方法，其特征在于，步驟二中，所述生成器模型的訓練方法，包括如下步驟：

B1、輸入所述視頻信息的向量，通過所述生成器模型輸出音頻信號；

B2、評估所述音頻信號，若不對應，則反饋給所述生成器模型，并重新進行調整，直到輸出對應的音頻信號；若對應，則繼續進行下一個視頻信息的訓練。

3.如權利要求1所述的一種基于端到端的水場景音頻的生成方法，其特征在于，步驟四中，所述音色增強器模型的訓練方法，包括如下步驟：

C1、輸入目標音頻的包絡，通過所述音色增強器模型輸出所述音頻的序列；

C2、評估所述音頻的序列，若不是目標序列，則反饋給所述音色增強器模型，并重新進行調整，直到輸出目標音頻的序列；若是目標序列，則繼續進行下一個音色增強訓練。

4.如權利要求1所述的一種基于端到端的水場景音頻的生成方法，其特征在于，步驟四中，所述包絡的生成方法，包括如下步驟：

D1、輸入一段音頻序列GV以及包絡的采樣間隔Lstep；

D2、取音頻序列GV中每一個采樣間隔Lstep內的絕對值的最大值作為這段間隔內的一個包絡點pi；

D3、所有采樣間隔內的包絡點pi連接而成的數組Ep，經過線性插值形成長度與GV相同的序列E(1 : len)，即為音頻序列GV所對應的包絡，

E(1 :len) = interp( max p1,……pLstep ⊕ ... ⊕ max plen ? Lstep + 1,……plen ) ，

其中，Pi ? GV ，interp()表示線性插值，⊕表示連接操作。

5.如權利要求2所述的一種基于端到端的水場景音頻的生成方法，其特征在于，步驟二中，輸出所述音頻信號所使用的損失函數為：

其中，λ = 100，其中，X表示聲音真實值，V表示視頻幀信息，G表示生成器生成的結果，D表示評估的結果，E表示求均值。

6.如權利要求2所述的一種基于端到端的水場景音頻的生成方法，其特征在于，步驟二中，評估所述音頻信號所使用的損失函數為：

其中，V表示視頻幀信息，G表示生成器生成的結果，D表示評估的結果，E表示求均值。

7.如權利要求1所述的一種基于端到端的水場景音頻的生成方法，其特征在于，所述水場景音頻的生成方法基于GAN網絡，所述GAN網絡包括生成器、辨別器及音色增強器。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于天津大學，未經天津大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910091367.1/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種自動分析機頂盒衛星節目信息的方法
下一篇：一種影像分析系統與方法

同類專利

專利分類

H 電學

H04 電通信技術
H04N 圖像通信，如電視
H04N21-00 可選的內容分發，例如交互式電視，VOD〔視頻點播〕
H04N21-20 .專門適用于內容分發的專用服務器，例如：VOD服務器；其操作
H04N21-40 .專門適用于接收內容或者與內容交互的客戶端設備，如STB[機頂盒]；相關操作
H04N21-60 .用于在服務器和客戶端之間或者在遠程客戶端之間的視頻分配的網絡結構或者處理
H04N21-80 .通過內容產生器獨立于分配過程實現的內容或附加數據的生成或處理；內容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】