[發明專利]音頻處理方法及裝置在審
| 申請號: | 202110234594.2 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113035207A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 王曉紅;陳佳路;劉魯鵬;元海明;李貝;夏龍 | 申請(專利權)人: | 北京猿力未來科技有限公司 |
| 主分類號: | G10L19/005 | 分類號: | G10L19/005;H04L29/06 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區廣順南大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 | ||
本說明書提供音頻處理方法及裝置,其中所述音頻處理方法包括:獲取待處理音頻;對所述待處理音頻進行預處理,獲得所述待處理音頻對應的全局頻域幀序列;根據所述全局頻域幀序列構建所述待處理音頻對應的音頻特征集合,并將所述音頻特征集合輸入至音頻處理模型進行處理獲得局部頻域幀序列;基于所述局部頻域幀序列和所述全局頻域幀序列生成用于替換所述待處理音頻的目標音頻,實現了精準的對待處理音頻進行補償,有效的提高了補償效率以及補償精準度。
技術領域
本說明書涉及計算機技術領域,特別涉及一種音頻處理方法。本說明書同時涉及一種音頻處理裝置,一種計算設備,以及一種計算機可讀存儲介質。
背景技術
隨著互聯網越來越普及,實時語音通信應用被應用的越來越廣泛,但是由于存在網絡狀態及相關因素的影響,實時語音通訊的丟包問題在所難免,與視頻傳輸不同,語音丟包處理不佳,會讓通話雙方體驗嚴重下降,因此為了避免這一問題,現有技術中,通常采用基于接收端補償的補償方法解決上述問題;而基于接收端補償通常采用錯誤隱蔽算法的丟包補償技術,通過產生一個與丟包的語音包相似的替代語音實現補包操作,但是由于算法限制其僅能處理較小的丟包率(15%)和較小的語音包(4-40ms),并且該算法精準度較低,在部分業務場景中很難滿足業務需求,因此亟需一種有效的方案以解決該問題。
發明內容
有鑒于此,本說明書實施例提供了一種音頻處理方法。本說明書同時涉及一種音頻處理裝置,一種計算設備,以及一種計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
根據本說明書實施例的第一方面,提供了一種音頻處理方法,包括:
獲取待處理音頻;
對所述待處理音頻進行預處理,獲得所述待處理音頻對應的全局頻域幀序列;
根據所述全局頻域幀序列構建所述待處理音頻對應的音頻特征集合,并將所述音頻特征集合輸入至音頻處理模型進行處理獲得局部頻域幀序列;
基于所述局部頻域幀序列和所述全局頻域幀序列生成用于替換所述待處理音頻的目標音頻。
可選地,所述對所述待處理音頻進行預處理,獲得所述待處理音頻對應的全局頻域幀序列,包括:
對所述待處理音頻進行分幀處理,獲得時域幀序列;
按照預設的變換策略對所述時域幀序列進行變換處理,獲得所述全局頻域幀序列。
可選地,所述按照預設的變換策略對所述時域幀序列進行變換處理,獲得所述全局頻域幀序列,包括:
確定所述時域幀序列對應的時域信息,并在所述預設的變換策略中選擇與所述時域信息對應的變換參數;
通過所述變換參數對所述時域幀序列進行變換處理,獲得所述全局頻域幀序列。
可選地,所述根據所述全局頻域幀序列構建所述待處理音頻對應的音頻特征集合,包括:
確定所述全局頻域幀序列對應的頻域信息,并基于所述頻域信息確定所述全局頻域幀序列的頻域幀、分量以及復數;
基于所述頻域幀、所述分量以及所述復數構建所述待處理音頻對應的所述音頻特征集合。
可選地,所述將所述音頻特征集合輸入至音頻處理模型進行處理獲得局部頻域幀序列,包括:
將所述音頻特征集合輸入至所述音頻處理模型,通過所述音頻處理模型中的卷積層對所述音頻特征集合進行處理,獲得中間音頻特征集合;
基于所述音頻處理模型中的預設參考幅值對所述中間音頻特征集合進行調整,獲得目標音頻特征集合;
通過所述音頻處理模型中的輸出層對所述目標音頻特征集合進行處理,獲得所述音頻處理模型輸出的所述局部頻域幀序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京猿力未來科技有限公司,未經北京猿力未來科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110234594.2/2.html,轉載請聲明來源鉆瓜專利網。





