[發明專利]一種面向頻帶擴展的生成式對抗網絡訓練方法及音頻編碼、解碼方法有效
| 申請號: | 201710992311.4 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107945811B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 曲天書;吳璽宏;黃慶博 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/24;G10L21/038 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 頻帶 擴展 生成 對抗 網絡 訓練 方法 音頻 編碼 解碼 | ||
本發明公開了一種面向頻帶擴展的生成式對抗網絡訓練方法及音頻編碼、解碼方法。本發明的生成式對抗網絡訓練方法為:對音頻信號進行瞬態信號檢測;然后根據檢測結果分別對其進行MDCT變換,將得到的頻譜作為真數據;對頻譜進行分帶,并計算高低頻頻譜能量包絡比,然后對該高低頻頻譜能量包絡比進行量化、反量化;將分帶得到的低頻頻譜輸入生成網絡GAN,生成高頻頻譜;利用反量化的高頻能量包絡修正生成的高頻頻譜,得到最終生成的高頻頻譜;將最終生成的高頻頻譜和分帶得到的低頻頻譜合成為全帶的生成頻譜,將該全帶的生成頻譜作為假數據;將得到真數據、假數據作為判別網絡D的輸入,訓練生成式對抗網絡。本發明訓練的網絡易收斂。
技術領域
本發明屬于音頻編解碼領域,涉及一種頻帶擴展方法,尤其涉及一種面向頻帶擴展的生成式對抗網絡訓練方法及音頻編碼方法、解碼方法。
背景技術
音頻編解碼技術又稱之為音頻壓縮技術,對音頻文件進行壓縮編碼,降低文件碼率,使結果便于記錄、存儲、傳輸,具有廣泛的用途。當目標碼率較低時,傳統單聲道音頻編解碼技術會舍棄高頻信息以保證低頻的壓縮效果,但由于缺失高頻信息,此時編解碼結果聲音會引起空洞、發悶等不舒適的感覺。為提高編解碼質量,通常會對單通道核心編碼器的解碼結果進行頻帶擴展。這類方法統稱為頻帶擴展技術。頻帶擴展技術是指解碼端通過少量額外信息或者不用額外信息,在編碼端只給出低頻內容的條件下,恢復出相應高頻部分,使解碼結果具有溫暖,明亮,豐富等舒適的主觀聽感。
20世紀70年代早期,Knoppel K在音頻編輯軟件Aphex Aural Exciter中提供了一種由低頻生成高頻的方法。該方法一般被認為是音頻頻帶擴展技術的第一個方法。1979年,Makhoul J和Berouti M提出用譜折疊譜平移的方式擴展語音信號的帶寬。
20世紀90年代,以心理聲學模型為基礎的音頻感知編碼的研究逐漸成熟。通過心理學實驗發現人類聽覺系統感覺不到一個能量較大信號頻譜周圍的失真,稱之為“掩蔽效應”。利用掩蔽效應,可把音頻感知編碼中的誤差放到人感知不到的地方。1997年,CodingTechnology公司提出頻帶擴展技術(Spectral Band Replication,SBR)成功地把心理聲學模型作為評價準則應用于音頻壓縮編碼中。憑借優良的性能,SBR模塊成為國際音頻壓縮標準的一個重要組成模塊。
1994年Cheng Y M等人提出利用統計模型(Statistical Recovery Function,SRF)完成從低頻到高頻的映射,實現語音文件從窄帶到寬帶的頻帶擴展。2000年,Jax P和Vary P利用隱馬爾科夫模型完成語音頻帶擴展任務。同年,Park K Y等人提出利用高斯混合模型完成語音頻帶擴展任務,2002年Seo J提出在Bark帶頻譜建模,在Bark帶上實現頻帶擴展,2009年Nagel F,Disch S提出諧波頻帶擴展等。
近幾年,神經網絡飛速發展,借助神經網絡作為生成模型,頻帶擴展技術又有了新的發展。主要包括2010年Pham T V,Schaefer F等提出用前饋神經網絡(Feed ForwardNeural Network)實現頻譜擴展。2012年,Pulakka H和Alku P基于窄帶語音的特征,使用神經網絡在幀內估計擴展頻帶中的頻譜。
發明內容
本發明提出了一種面向頻帶擴展的生成式對抗網絡訓練方法及音頻編碼方法、解碼方法。針對生成式對抗網絡不易收斂的缺點以及聲音信號頻帶擴展任務的特殊性,引入真實的低頻信息及高頻包絡對傳統生成式對抗網絡做了改進,并在此基礎上搭建了完整的單通道編解碼系統。編碼端提取高頻頻譜能量包絡,并量化壓縮,作為邊信息與窄帶的單通道壓縮信號一起寫入碼流。解碼端利用高頻能量包絡信息和窄帶壓縮信號恢復寬帶信號。
本發明的技術方案為:
一種面向頻帶擴展的生成式對抗網絡訓練方法,其步驟包括:
對音頻信號進行瞬態信號檢測;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710992311.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于編碼和解碼HOA或多聲道數據的方法和裝置
- 下一篇:一種語音處理方法





