[發明專利]音頻處理方法、裝置、電子設備和可讀存儲介質在審
| 申請號: | 202011613263.1 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112735454A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 梁光;舒景辰;吳雨璇;楊惠;周鼎皓 | 申請(專利權)人: | 北京大米科技有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0208;G10L13/10;G10L25/30;G10L25/90 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100142 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 電子設備 可讀 存儲 介質 | ||
本發明實施例提供了一種音頻處理方法、裝置、電子設備和可讀存儲介質,涉及計算機技術領域。通過本發明實施例,基于原始音頻樣本訓練的信息補償模型具有較好的信息補償能力,當使用訓練后的信息補償模型對待處理音頻進行信息補償時,可以使得目標音頻中被補償的部分與真實聲音的相似度更高,進而使得目標音頻的真實度更高,也就是說,訓練后的信息補償模型具有較高的升采樣準確率。
技術領域
本申請涉及計算機技術領域,特別是涉及一種音頻處理方法、裝置、電子設備和可讀存儲介質。
背景技術
目前,音頻處理可以應用在各種場景,例如對機器合成語音(在線教育、視頻配音以及解說等等)進行音頻處理,在實際應用過程中,常見的音頻處理包括音頻數據壓縮以及音頻數據還原。
然而,在音頻數據壓縮以及音頻數據還原的過程中,往往會對音頻數據產生數據損耗,降低了音頻數據還原的準確率。
發明內容
有鑒于此,本發明實施例提供一種音頻處理方法、裝置、電子設備和可讀存儲介質,以使得信息補償模型具有較好的信息補償能力和較高的升采樣準確率。
第一方面,提供了一種音頻處理方法,所述方法應用于電子設備,所述方法包括:
獲取待處理音頻。
將所述待處理音頻輸入至預先訓練的信息補償模型進行處理,以獲取目標音頻。
其中,所述信息補償模型基于如下步驟訓練:
獲取訓練集,所述訓練集包括多個樣本組,所述樣本組包括經降維處理后的第一音頻樣本和所述第一音頻樣本對應的原始音頻樣本。
根據所述訓練集訓練所述信息補償模型。
可選的,所述獲取待處理音頻,包括:
獲取原始音頻數據。
對所述原始音頻數據進行降采樣處理,獲取待處理音頻。
可選的,所述第一音頻樣本中包括預設的噪聲數據。
可選的,所述噪聲數據包括白噪聲和/或粉紅噪聲。
可選的,所述獲取訓練集,包括:
獲取多個原始音頻樣本。
對于一原始音頻樣本,對所述原始音頻樣本進行降采樣處理,獲取第一音頻數據。
將多個預設的噪聲數據分別與所述第一音頻數據進行組合,確定對應的多個第一音頻樣本,以獲取所述原始音頻樣本對應的多個樣本組。
可選的,所述將所述待處理音頻輸入至預先訓練的信息補償模型進行處理,以獲取目標音頻,包括:
將所述待處理音頻輸入至預先訓練的信息補償模型進行升采樣處理,以確定所述目標音頻。
可選的,所述獲取原始音頻數據,包括:
獲取輸入文本。
確定所述輸入文本中至少一個字的發音向量,所述發音向量至少包括對應字的韻律信息。
確定各所述發音向量對應的發音時長以及發音音調,所述發音時長用于表征發音的持續時長,所述發音音調用于表征發音的音高。
基于所述發音向量、所述發音時長以及所述發音音調,合成所述輸入文本對應的原始音頻數據。
可選的,所述發音音調為方言音調,所述方言音調用于表征方言發音的音高。
可選的,所述信息補償模型基于自回歸神經網絡或者生成對抗網絡構建。
第二方面,提供了一種音頻處理裝置,所述裝置應用于電子設備,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大米科技有限公司,未經北京大米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011613263.1/2.html,轉載請聲明來源鉆瓜專利網。





