[發(fā)明專利]一種基于GAN的音頻音質(zhì)還原系統(tǒng)有效

申請(qǐng)?zhí)枺?/td>	201810532016.5	申請(qǐng)日：	2018-05-29
公開（公告）號(hào)：	CN108877832B	公開（公告）日：	2022-12-23
發(fā)明（設(shè)計(jì)）人：	張逸;韓芳;黃榮	申請(qǐng)（專利權(quán)）人：	東華大學(xué)
主分類號(hào)：	G10L25/03	分類號(hào)：	G10L25/03;G10L25/27;G10L15/06
代理公司：	上海泰能知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31233	代理人：	宋纓;錢文斌
地址：	201620 上海市***	國(guó)省代碼：	上海;31
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 gan 音頻音質(zhì) 還原系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于GAN的音頻音質(zhì)還原系統(tǒng)，其特征在于，包括模型共享區(qū)塊模塊、生成網(wǎng)絡(luò)模型模塊、判別網(wǎng)絡(luò)模型模塊和序列重組模塊；所述模型共享區(qū)塊模塊用于對(duì)于因防止損失信息沒有進(jìn)行頻域處理的時(shí)域信號(hào)進(jìn)行特征提取，將特征抽象為高層單元；所述生成網(wǎng)絡(luò)模型模塊利用高層抽象單元進(jìn)行分析和重構(gòu)；所述判別網(wǎng)絡(luò)模型模塊不斷與所述生成網(wǎng)絡(luò)模型進(jìn)行對(duì)抗訓(xùn)練，不斷改進(jìn)生成效果；所述序列重組模塊分析網(wǎng)絡(luò)對(duì)最終生成輸出進(jìn)行序列加權(quán)重組；所述模型共享區(qū)塊模塊使用離散卷積核對(duì)離散音頻信號(hào)進(jìn)行卷積計(jì)算從而提取特征，將信號(hào)抽象化，同時(shí)使用批標(biāo)準(zhǔn)化，在每次反向傳導(dǎo)時(shí)，通過送入數(shù)組的激活值做規(guī)范化操作使得輸出信號(hào)的均值擬似正態(tài)分布，利用線性整流函數(shù)的非線性特性擬合模型特性降低網(wǎng)絡(luò)整體的計(jì)算負(fù)擔(dān)；所述生成網(wǎng)絡(luò)模型模塊使用空洞卷積進(jìn)行跨步輸入降低輸入維度并同時(shí)增大感受野，融合批標(biāo)準(zhǔn)化對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化減少數(shù)據(jù)偏移和尺度縮放，使用殘差網(wǎng)絡(luò)分段學(xué)習(xí)使網(wǎng)絡(luò)注重學(xué)習(xí)網(wǎng)絡(luò)的殘差；所述序列重組模塊通過分析最終輸出單元所依賴的填值單元對(duì)于有效傳輸單元的比例，從而確定單元輸出的置信度，最終根據(jù)置信度計(jì)算權(quán)重對(duì)被分割的音頻信號(hào)片段進(jìn)行重組，其處理方式為：其中，分別為最終輸出音頻、前合成音頻段、后合成音頻段，w為兩段合成時(shí)所使用的權(quán)重，c是所有卷積層中所有的通道，RF_k為第k個(gè)通道下的感受野長(zhǎng)度，i交疊區(qū)域數(shù)據(jù)的索引。

2.根據(jù)權(quán)利要求1所述的基于GAN的音頻音質(zhì)還原系統(tǒng)，其特征在于，所述判別網(wǎng)絡(luò)模型模塊使用間隔步長(zhǎng)降低網(wǎng)絡(luò)維度從而防止序列過長(zhǎng)導(dǎo)致后續(xù)循環(huán)神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練。

3.根據(jù)權(quán)利要求1所述的基于GAN的音頻音質(zhì)還原系統(tǒng)，其特征在于，所述判別網(wǎng)絡(luò)模型模塊不斷與所述生成網(wǎng)絡(luò)模型進(jìn)行對(duì)抗訓(xùn)練是指使用小批量數(shù)據(jù)分批進(jìn)行訓(xùn)練，訓(xùn)練使用局部梯度下降法進(jìn)行反向傳導(dǎo)，生成網(wǎng)絡(luò)模型模塊和判別網(wǎng)絡(luò)模型模塊交替進(jìn)行訓(xùn)練，在訓(xùn)練過程調(diào)整生成網(wǎng)絡(luò)模型模塊和判別網(wǎng)絡(luò)模型模塊的權(quán)重。

4.根據(jù)權(quán)利要求3所述的基于GAN的音頻音質(zhì)還原系統(tǒng)，其特征在于，使用原音頻作為對(duì)比文件進(jìn)行生成訓(xùn)練，使用局部梯度下降法反向傳導(dǎo)對(duì)整個(gè)生成網(wǎng)絡(luò)模型的參數(shù)進(jìn)行更新，然后調(diào)整權(quán)重針對(duì)生成網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，相對(duì)應(yīng)的生成網(wǎng)絡(luò)模型的參數(shù)訓(xùn)練獲得的權(quán)重參數(shù)更新更大，之后判別網(wǎng)絡(luò)模型與生成網(wǎng)絡(luò)模型交替訓(xùn)練直至網(wǎng)絡(luò)收斂。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東華大學(xué)，未經(jīng)東華大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810532016.5/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】