[發明專利]基于深度學習的音頻音質增強有效
| 申請號: | 201810583122.6 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN109147805B | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 秦宇;姚青山;喻浩文;盧峰 | 申請(專利權)人: | 安克創新科技股份有限公司 |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007;G10L25/30 |
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 高偉;卜璐璐 |
| 地址: | 410205 湖南省長沙市高新開發區尖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 音頻 音質 增強 | ||
1.一種基于深度學習的音頻音質增強方法,其特征在于,所述方法包括:
獲取有損音頻數據,并對所述有損音頻數據進行特征提取以得到所述有損音頻數據的特征,所述有損音頻數據是有損壓縮音頻格式的數據;以及
基于所述有損音頻數據的特征,利用訓練好的音頻重構神經網絡將所述有損音頻數據重構為音質接近于無損音頻的輸出音頻數據,所述無損音頻為無損壓縮音頻格式的音頻。
2.根據權利要求1所述的方法,其特征在于,所述音頻重構神經網絡的訓練包括:
獲取無損音頻樣本和有損音頻樣本,其中所述有損音頻樣本是由所述無損音頻樣本通過變換而得到;
對所述有損音頻樣本和所述無損音頻樣本分別進行特征提取以分別得到所述有損音頻樣本的特征和所述無損音頻樣本的特征;以及
將得到的所述有損音頻樣本的特征作為所述音頻重構神經網絡的輸入層的輸入,并將得到的所述無損音頻樣本的特征作為所述音頻重構神經網絡的輸出層的目標,以訓練所述音頻重構神經網絡。
3.根據權利要求2所述的方法,其特征在于,所述無損音頻樣本經過格式變換得到所述有損音頻樣本。
4.根據權利要求3所述的方法,其特征在于,所述無損音頻樣本和所述有損音頻樣本的采樣頻率和量化位數均相同。
5.根據權利要求1或2所述的方法,其特征在于,所述特征提取得到的特征包括頻域幅度和/或能量信息。
6.根據權利要求5所述的方法,其特征在于,所述特征提取得到的特征還包括頻譜相位信息。
7.根據權利要求6所述的方法,其特征在于,所述特征提取的方式包括短時傅里葉變換。
8.根據權利要求2所述的方法,其特征在于,所述音頻重構神經網絡的訓練還包括:
在對所述有損音頻樣本和所述無損音頻樣本進行特征提取之前,對所述有損音頻樣本和所述無損音頻樣本分別進行分幀,并且所述特征提取是針對分幀后得到的音頻樣本逐幀進行的。
9.根據權利要求8所述的方法,其特征在于,所述音頻重構神經網絡的訓練還包括:
在對所述有損音頻樣本和所述無損音頻樣本進行分幀之前,將所述有損音頻樣本和所述無損音頻樣本分別解碼為時域波形數據,并且所述分幀是針對解碼后得到的時域波形數據進行的。
10.根據權利要求1所述的方法,其特征在于,所述利用訓練好的音頻重構神經網絡將所述有損音頻數據重構為所述輸出音頻數據包括:
將所述有損音頻數據的特征作為所述訓練好的音頻重構神經網絡的輸入,并由所述訓練好的音頻重構神經網絡輸出重構音頻特征;以及
基于所述重構音頻特征生成時域音頻波形以作為所述輸出音頻數據。
11.一種基于深度學習的音頻音質增強裝置,其特征在于,所述裝置包括:
特征提取模塊,用于獲取有損音頻數據,并對所述有損音頻數據進行特征提取以得到所述有損音頻數據的特征,所述有損音頻數據是有損壓縮音頻格式的數據;以及
音頻重構模塊,用于基于所述特征提取模塊提取的所述有損音頻數據的特征,利用訓練好的音頻重構神經網絡將所述有損音頻數據重構為音質接近于無損音頻的輸出音頻數據,所述無損音頻為無損壓縮音頻格式的音頻。
12.根據權利要求11所述的裝置,其特征在于,所述音頻重構神經網絡的訓練包括:
獲取無損音頻樣本和有損音頻樣本,其中所述有損音頻樣本是由所述無損音頻樣本通過變換而得到;
對所述有損音頻樣本和所述無損音頻樣本分別進行特征提取以分別得到所述有損音頻樣本的特征和所述無損音頻樣本的特征;以及
將得到的所述有損音頻樣本的特征作為所述音頻重構神經網絡的輸入層的輸入,并將得到的所述無損音頻樣本的特征作為所述音頻重構神經網絡的輸出層的目標,以訓練所述音頻重構神經網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安克創新科技股份有限公司,未經安克創新科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810583122.6/1.html,轉載請聲明來源鉆瓜專利網。





