[發明專利]基于生成對抗網絡的頻帶擴展方法、編解碼方法及系統有效
| 申請號: | 202210322549.7 | 申請日: | 2022-03-30 |
| 公開(公告)號: | CN114420140B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 李強;朱勇;葉東翔;王堯 | 申請(專利權)人: | 北京百瑞互聯技術有限公司 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/16;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京國科程知識產權代理事務所(普通合伙) 11862 | 代理人: | 曹曉斐 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 頻帶 擴展 方法 解碼 系統 | ||
本申請公開了一種基于生成對抗網絡的頻帶擴展方法、編解碼方法及系統,屬于音頻編解碼技術領域,該方法包括:在音頻編碼或解碼過程中,通過LC3音頻編碼器或解碼器對輸入的音頻數據進行特征提取,確定其對應的譜系數;對譜系數進行帶寬檢測,得到帶寬指示;若帶寬指示為窄帶寬,則通過預訓練的生成神經網絡對窄帶寬對應的低頻譜系數進行擴展,得到高頻譜系數;將低頻譜系數和高頻譜系數組合,得到寬帶譜系數。本申請在音頻編碼或解碼過程中,利用LC3編解碼器中已有的模塊獲取音頻數據的譜系數,并通過神經網絡生成最終的寬帶譜系數,完成頻帶的擴展。在編碼或解碼過程中完成頻帶擴展,節省算力,降低功耗,適用低功耗藍牙,保證頻帶擴展的準確性。
技術領域
本申請涉及音頻編解碼技術領域,尤其涉及一種基于生成對抗網絡的頻帶擴展方法、編解碼方法及系統。
背景技術
音頻帶寬用于描述組成復合信號的頻率范圍,常見的音樂歌曲的音頻帶寬在20Hz到20000Hz之間,音頻信號的頻帶越寬,所包含的音頻信號分量越豐富,音質也就越好,因此較高帶寬的音頻信號具有較好的聽覺質量。但由于某些錄音裝置能夠處理或者通過的頻率范圍有限等原因導致歌曲的頻譜高度不高(例如:小于8K),導致歌曲對應的音質沉悶、不夠明亮,因此常通過音頻帶寬擴展技術增強歌曲的高頻帶細節,使高頻分量更豐富以提高歌曲的音質。
目前,傳統的音頻帶寬擴展方法有非盲目式高頻重建方法(例如:頻帶復制(Spectral Band Replication,SBR)法、簡化參數的帶寬擴展(Simplified ParametersBand width Extension ,SPBE) 等) 和盲目式高頻重建方法(例如:線性外推(LinearExtrapolation,LE)、非線性預測等),這些傳統方法大多數都在時域中,通過線性預測編碼(Linear Predictive Coding,LPC)提取窄帶信號的頻譜包絡等窄帶特征,結合線性匹配或者統計方法由窄帶特征預測得到高頻帶特征,進而合成得到超分辨率音頻。傳統的音頻帶寬擴展方法大多在時域進行處理,且音樂的音頻頻譜特征復雜多變。音頻生成的泛化能力差,合成的超分辨率音頻往往含有很多雜音,失真度高,聽感沉悶。
另外,現有的頻帶擴展方法大多針對普通藍牙設備,占用較大的存儲空間并消耗較多的運算量,而LC3低功耗藍牙對功耗有著嚴格的要求,因此上述的方法不能適用于低功耗藍牙的應用場景。
發明內容
針對現有技術中,在進行頻帶擴展得到寬帶寬音頻時,操作過程復雜,功耗高,無法在嵌入式藍牙系統中實施,無法適用低功耗藍牙的應用場景的問題,本申請提出一種基于生成對抗網絡的頻帶擴展方法、編解碼方法及系統。
在本申請的一個技術方案中,提供一種基于生成對抗網絡的頻帶擴展方法,包括:在音頻編碼或解碼過程中,通過LC3音頻編碼器或解碼器對輸入的音頻數據進行特征提取,確定其對應的譜系數;對譜系數進行帶寬檢測,得到帶寬指示;若帶寬指示為窄帶寬,則通過預訓練的生成網絡對窄帶寬對應的低頻譜系數進行擴展,得到高頻譜系數;將低頻譜系數和高頻譜系數組合,得到寬帶譜系數。
可選的,生成網絡的預訓練過程包括:獲取寬帶語音,并對寬帶語音進行濾波,得到窄帶語音,其中寬帶語音具有寬帶寬,窄帶語音僅具有窄帶寬;分別對寬帶語音和窄帶語音進行特征提取換,得到寬帶語音對應的真寬帶譜系數和窄帶語音對應的窄帶譜系數;根據寬帶譜系數和從窄帶譜系數中提取的低頻譜系數對生成網絡進行訓練,使得生成網絡能夠根據窄帶譜系數生成高頻譜系數。
可選的,通過LC3音頻編碼器或解碼器對輸入的音頻數據進行特征提取,確定其對應的譜系數,包括:在LC3音頻編碼器的音頻編碼過程中,通過對音頻數據進行低延遲改進型離散余弦變換,得到譜系數;或在LC3音頻解碼器的音頻解碼過程中,對輸入的解碼音頻數據解碼至變換域噪聲整形步驟,得到譜系數。
可選的,生成網絡的預訓練過程還包括:將低頻譜系數和高頻譜系數組合,得到假寬帶譜系數;通過判別網絡對真寬帶譜系數和假寬帶譜系數進行判斷,對生成網絡進行優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百瑞互聯技術有限公司,未經北京百瑞互聯技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210322549.7/2.html,轉載請聲明來源鉆瓜專利網。





