[發明專利]一種面向頻帶擴展的生成式對抗網絡訓練方法及音頻編碼、解碼方法有效
| 申請號: | 201710992311.4 | 申請日: | 2017-10-23 |
| 公開(公告)號: | CN107945811B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 曲天書;吳璽宏;黃慶博 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/24;G10L21/038 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 頻帶 擴展 生成 對抗 網絡 訓練 方法 音頻 編碼 解碼 | ||
1.一種面向頻帶擴展的生成式對抗網絡訓練方法,其步驟包括:
對音頻信號進行瞬態信號檢測;
a)如果檢測結果為穩態信號,則對其進行MDCT變換,將得到的頻譜作為真數據;對得到的頻譜進行分帶,并根據得到的高頻頻譜、低頻頻譜計算高低頻頻譜能量包絡比,然后對該高低頻頻譜能量包絡比進行量化、反量化;將分帶得到的低頻頻譜輸入穩態GAN網絡,生成高頻頻譜;利用反量化的高頻能量包絡修穩態GAN網絡生成的高頻頻譜,得到最終生成的高頻頻譜;將最終生成的高頻頻譜和分帶得到的低頻頻譜合成為全帶的生成頻譜,將該全帶的生成頻譜作為假數據;將得到真數據、假數據作為判別網絡D的輸入,訓練生成式對抗網絡;
b)如果檢測結果為瞬態信號,則對其進行MDCT變換,將得到的頻譜作為真數據;對得到的頻譜進行分帶,并根據得到的高頻頻譜、低頻頻譜計算高低頻頻譜能量包絡比,然后對該高低頻頻譜能量包絡比進行量化、反量化;將分帶得到的低頻頻譜輸入瞬態GAN網絡,生成高頻頻譜;利用反量化的高頻能量包絡修正瞬態GAN網生成的高頻頻譜,得到最終生成的高頻頻譜;將最終生成的高頻頻譜和分帶得到的低頻頻譜合成為全帶的生成頻譜,將該全帶的生成頻譜作為假數據;將得到真數據、假數據作為判別網絡D的輸入,訓練生成式對抗網絡;
其中穩態GAN網絡與瞬態GAN網絡均為生成式網絡GAN,且所述步驟a)中的穩態GAN網絡的網絡隱層節點系數與所述步驟b)中的瞬態GAN網絡的網絡隱層節點系數不同。
2.如權利要求1所述的生成式對抗網絡訓練方法,其特征在于,所述利用反量化的高頻能量包絡修正生成網絡GAN生成的高頻頻譜,得到最終生成的高頻頻譜的方法為:利用反量化的高頻能量包絡作為校正模塊使用的先驗信息,修正生成網絡GAN生成的高頻頻譜,得到最終生成的高頻頻譜。
3.如權利要求1所述的生成式對抗網絡訓練方法,其特征在于,所述計算高低頻頻譜能量包絡比為其中,低頻頻譜能量包絡高頻頻譜能量包絡為MDCTcoef(k)表示MDCT譜系數,cutf_low表示低頻截止頻率,slen表示選取的融合帶的帶寬,n表示融合帶下標,k表示MDCT譜線的下標。
4.一種音頻編碼方法,其步驟包括:
利用權利要求1所述方法得到的生成式對抗網絡對音頻信號進行瞬態信號檢測,并根據檢測結果標記幀類型;
如果檢測結果為穩態信號,則對其進行MDCT變換并采用長幀進行編碼,將MDCT變換得到的頻譜作為真數據;對得到的頻譜進行分帶,并根據得到的高頻頻譜、低頻頻譜計算高低頻頻譜能量包絡比,然后對該高低頻頻譜能量包絡比進行量化;
如果檢測結果為瞬態信號,則對其進行MDCT變換并采用短幀進行編碼,將MDCT變換得到的頻譜作為真數據;對得到的頻譜進行分帶,并根據得到的高頻頻譜、低頻頻譜計算高低頻頻譜能量包絡比,然后對該高低頻頻譜能量包絡比進行量化;
碼流合成,即將量化后的高低頻頻譜能量包絡比、幀類型標記與單通道核心編碼器的編碼結果一起寫入碼流。
5.一種音頻解碼方法,其步驟包括:
從碼流中分離出單通道碼流、量化后的高低頻頻譜能量包絡比和幀類型標記;
對分離出的單通道碼流解碼得到時域低頻信號;將量化后的高低頻頻譜能量包絡比解碼為編碼碼書中的量化值;
根據幀類型標記對所述時域低頻信號進行分幀;根據分幀結果做相應長度的MDCT變換,得到的頻譜作為真實數據;并對MDCT變換得到的頻譜進行分帶,得到高頻頻譜、低頻頻譜;
分別計算低頻頻譜能量包絡、高頻頻譜能量包絡;并將得到的低頻頻譜能量包絡經過生成式對抗網絡中的生成網絡GAN輸出高頻頻譜,將低頻頻譜能量包絡經過生成式對抗網絡中的生成網絡GAN輸出高頻頻譜;然后用高頻頻譜能量包絡修正輸出的高頻頻譜,得到修正后的高頻頻譜;
將修正后的高頻頻譜經IMDCT變換得到高頻時域信號;
將所述時域低頻信號、高頻時域信號進行融合得到最終的時域信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710992311.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于編碼和解碼HOA或多聲道數據的方法和裝置
- 下一篇:一種語音處理方法





