[發明專利]音頻處理方法及裝置、電子設備和存儲介質有效
| 申請號: | 201910086763.5 | 申請日: | 2019-01-29 |
| 公開(公告)號: | CN109887515B | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 周航;劉子緯;徐旭東;羅平;王曉剛 | 申請(專利權)人: | 北京市商湯科技開發有限公司 |
| 主分類號: | G10L19/00 | 分類號: | G10L19/00;G10L19/02;G10L25/18;G10L25/24;G10L25/30 |
| 代理公司: | 北京林達劉知識產權代理事務所(普通合伙) 11277 | 代理人: | 劉新宇 |
| 地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 電子設備 存儲 介質 | ||
本公開涉及一種音頻處理方法及裝置、電子設備和存儲介質,所述方法包括:對待處理的受損音頻進行頻譜轉換,得到所述受損音頻的第一頻譜圖像;對所述第一頻譜圖像進行頻譜補全,得到補全的第二頻譜圖像;根據所述第二頻譜圖像對所述受損音頻進行補全,得到補全后的第一音頻,使得補全后的第一音頻可以呈現良好的聽覺效果。
技術領域
本公開涉及信號處理技術領域,尤其涉及一種音頻處理方法及裝置、電子設備和存儲介質。
背景技術
音頻補全是指當音頻中的一段因為噪聲干擾或者意外導致缺失時,重新生成缺失部分的音頻并將其自然補全。這一技術在音頻信息修復和降噪方面有較多應用。相關技術主要依賴傳統的音頻處理方法,使用稀疏的音頻表示方法,尋找與缺失片段周圍已知片段相似的部分進行填充。
發明內容
本公開提出了一種音頻處理技術方案。
根據本公開的一方面,提供了一種音頻處理方法,包括:對待處理的受損音頻進行頻譜轉換,得到所述受損音頻的第一頻譜圖像;對所述第一頻譜圖像進行頻譜補全,得到補全的第二頻譜圖像;根據所述第二頻譜圖像對所述受損音頻進行補全,得到補全后的第一音頻。
在一種可能的實現方式中,對所述第一頻譜圖像進行頻譜補全,得到補全的第二頻譜圖像,包括:對所述第一頻譜圖像進行特征提取,得到第一頻譜特征;對所述第一頻譜特征進行頻譜重構,得到所述第二頻譜圖像。
在一種可能的實現方式中,對所述第一頻譜圖像進行頻譜補全,得到補全的第二頻譜圖像,包括:對所述第一頻譜圖像進行特征提取,得到第二頻譜特征;對所述受損音頻的相關信息進行特征提取,得到監督特征;對齊所述第二頻譜特征和所述監督特征;根據對齊后的監督特征對所述第一頻譜特征進行頻譜重構,得到所述第二頻譜圖像,其中,所述相關信息包括與所述受損音頻對應的視頻信息和光流信息中的至少一種。
在一種可能的實現方式中,所述受損音頻包括受損音頻片段;所述根據所述第二頻譜圖像對所述受損音頻進行補全,得到補全后的第一音頻,包括:對第二頻譜圖像中與受損音頻片段對應的頻譜圖像進行譜頻轉換,得到補全音頻片段;利用補全音頻片段對受損音頻進行補全,得到補全后的第一音頻。
在一種可能的實現方式中,所述受損音頻包括受損音頻片段和未受損音頻片段;所述根據所述第二頻譜圖像對所述受損音頻進行補全,得到補全后的第一音頻,包括:根據第二頻譜圖像中與受損音頻片段對應的頻譜圖像和未受損音頻片段,預測所述補全音頻片段;利用補全音頻片段對受損音頻進行補全,得到補全后的第一音頻。
在一種可能的實現方式中,所述根據所述第二頻譜圖像對所述受損音頻進行補全,得到補全后的第一音頻的操作,通過WaveNet解碼網絡實現。
在一種可能的實現方式中,所述第一頻譜圖像和第二頻譜圖像包括梅爾頻譜圖像或梅爾倒譜圖像。
根據本公開的一方面,提供了一種音頻處理裝置,包括:頻譜轉換模塊,用于對待處理的受損音頻進行頻譜轉換,得到所述受損音頻的第一頻譜圖像;頻譜補全模塊,用于對所述第一頻譜圖像進行頻譜補全,得到補全的第二頻譜圖像;音頻補全模塊,用于根據所述第二頻譜圖像對所述受損音頻進行補全,得到補全后的第一音頻。
在一種可能的實現方式中,所述頻譜補全模塊包括:第一特征提取子模塊,用于對所述第一頻譜圖像進行特征提取,得到第一頻譜特征;第一頻譜重構子模塊,用于對所述第一頻譜特征進行頻譜重構,得到所述第二頻譜圖像。
在一種可能的實現方式中,所述頻譜補全模塊包括:第二特征提取子模塊,用于對所述第一頻譜圖像進行特征提取,得到第二頻譜特征;第三特征提取子模塊,用于對所述受損音頻的相關信息進行特征提取,得到監督特征;對齊子模塊,用于對齊所述第二頻譜特征和所述監督特征;第二頻譜重構子模塊,用于根據對齊后的監督特征對所述第一頻譜特征進行頻譜重構,得到所述第二頻譜圖像,其中,所述相關信息包括與所述受損音頻對應的視頻信息和光流信息中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京市商湯科技開發有限公司,未經北京市商湯科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910086763.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:音頻傳輸方法及裝置
- 下一篇:對音頻場景進行解碼的方法、音頻解碼器以及介質





