[發明專利]音頻處理方法、裝置、電子設備和可讀存儲介質在審

申請號：	202011613263.1	申請日：	2020-12-30
公開（公告）號：	CN112735454A	公開（公告）日：	2021-04-30
發明（設計）人：	梁光;舒景辰;吳雨璇;楊惠;周鼎皓	申請（專利權）人：	北京大米科技有限公司
主分類號：	G10L21/02	分類號：	G10L21/02;G10L21/0208;G10L13/10;G10L25/30;G10L25/90
代理公司：	北京睿派知識產權代理事務所(普通合伙) 11597	代理人：	劉鋒
地址：	100142 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	音頻處理方法裝置電子設備可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例提供了一種音頻處理方法、裝置、電子設備和可讀存儲介質，涉及計算機技術領域。通過本發明實施例，基于原始音頻樣本訓練的信息補償模型具有較好的信息補償能力，當使用訓練后的信息補償模型對待處理音頻進行信息補償時，可以使得目標音頻中被補償的部分與真實聲音的相似度更高，進而使得目標音頻的真實度更高，也就是說，訓練后的信息補償模型具有較高的升采樣準確率。

技術領域

本申請涉及計算機技術領域，特別是涉及一種音頻處理方法、裝置、電子設備和可讀存儲介質。

背景技術

目前，音頻處理可以應用在各種場景，例如對機器合成語音(在線教育、視頻配音以及解說等等)進行音頻處理，在實際應用過程中，常見的音頻處理包括音頻數據壓縮以及音頻數據還原。

然而，在音頻數據壓縮以及音頻數據還原的過程中，往往會對音頻數據產生數據損耗，降低了音頻數據還原的準確率。

發明內容

有鑒于此，本發明實施例提供一種音頻處理方法、裝置、電子設備和可讀存儲介質，以使得信息補償模型具有較好的信息補償能力和較高的升采樣準確率。

第一方面，提供了一種音頻處理方法，所述方法應用于電子設備，所述方法包括：

獲取待處理音頻。

將所述待處理音頻輸入至預先訓練的信息補償模型進行處理，以獲取目標音頻。

其中，所述信息補償模型基于如下步驟訓練：

獲取訓練集，所述訓練集包括多個樣本組，所述樣本組包括經降維處理后的第一音頻樣本和所述第一音頻樣本對應的原始音頻樣本。

根據所述訓練集訓練所述信息補償模型。

可選的，所述獲取待處理音頻，包括：

獲取原始音頻數據。

對所述原始音頻數據進行降采樣處理，獲取待處理音頻。

可選的，所述第一音頻樣本中包括預設的噪聲數據。

可選的，所述噪聲數據包括白噪聲和/或粉紅噪聲。

可選的，所述獲取訓練集，包括：

獲取多個原始音頻樣本。

對于一原始音頻樣本，對所述原始音頻樣本進行降采樣處理，獲取第一音頻數據。

將多個預設的噪聲數據分別與所述第一音頻數據進行組合，確定對應的多個第一音頻樣本，以獲取所述原始音頻樣本對應的多個樣本組。

可選的，所述將所述待處理音頻輸入至預先訓練的信息補償模型進行處理，以獲取目標音頻，包括：

將所述待處理音頻輸入至預先訓練的信息補償模型進行升采樣處理，以確定所述目標音頻。

可選的，所述獲取原始音頻數據，包括：

獲取輸入文本。

確定所述輸入文本中至少一個字的發音向量，所述發音向量至少包括對應字的韻律信息。

確定各所述發音向量對應的發音時長以及發音音調，所述發音時長用于表征發音的持續時長，所述發音音調用于表征發音的音高。

基于所述發音向量、所述發音時長以及所述發音音調，合成所述輸入文本對應的原始音頻數據。

可選的，所述發音音調為方言音調，所述方言音調用于表征方言發音的音高。

可選的，所述信息補償模型基于自回歸神經網絡或者生成對抗網絡構建。

第二方面，提供了一種音頻處理裝置，所述裝置應用于電子設備，所述裝置包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京大米科技有限公司，未經北京大米科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011613263.1/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種服務器、主板轉接存儲模塊及PCIE信號轉接板
下一篇：數據傳輸方法、裝置及服務器、客戶終端

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】