[發明專利]音頻處理方法、裝置及計算機可讀存儲介質在審

申請號：	202110872240.0	申請日：	2021-07-30
公開（公告）號：	CN113823287A	公開（公告）日：	2021-12-21
發明（設計）人：	馬應龍;索郎王修	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/04
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	熊永強;杜維
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	音頻處理方法裝置計算機可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種音頻處理方法，其特征在于，所述方法包括：

獲取待處理音頻，所述待處理音頻包括一個或多個音頻幀；

針對所述一個或多個音頻幀中的任一音頻幀，對所述任一音頻幀進行切分處理得到多個音頻片段，確定所述多個音頻片段中每個音頻片段的音頻類別，根據所述每個音頻片段的音頻類別確定所述任一音頻幀的語音識別結果；

根據各個音頻幀的語音識別結果，將所述待處理音頻中語音識別結果為目標識別結果的音頻幀進行剔除，得到處理后的音頻；

對所述處理后的音頻進行風格轉換處理，得到目標音頻。

2.根據權利要求1所述的方法，其特征在于，所述確定所述多個音頻片段中每個音頻片段的音頻類別，包括：

針對所述多個音頻片段中的任一音頻片段，對所述任一音頻片段進行特征提取，得到所述任一音頻片段的語音特征；

利用音頻分類模型的特征處理模塊對所述任一音頻片段的語音特征進行處理，得到所述任一音頻片段的語音特征向量；

利用所述音頻分類模型的分類處理模塊對所述任一音頻片段的語音特征向量進行處理，得到任一音頻片段的音頻類別。

3.根據權利要求1所述的方法，其特征在于，所述根據所述每個音頻片段的音頻類別確定所述任一音頻幀的語音識別結果，包括：

根據所述每個音頻片段的音頻類別，確定所述任一音頻幀中音頻類別為目標類別的音頻片段的占比；

根據所述占比確定所述任一音頻幀的語音識別結果。

4.根據權利要求3所述的方法，其特征在于，所述根據所述占比確定所述任一音頻幀的語音識別結果，包括：

當所述占比小于比例閾值時，確定所述任一音頻幀的語音識別結果為所述目標識別結果，所述目標識別結果用于指示所述任一音頻幀為非語音音頻。

5.根據權利要求3所述的方法，其特征在于，所述方法還包括：

針對所述任一音頻幀，確定所述任一音頻幀為語音的預測值；

其中，所述根據所述占比確定所述任一音頻幀的語音識別結果，包括：

根據所述占比和所述預測值確定所述任一音頻幀為語音音頻的參考概率；

當所述參考概率小于概率閾值時，確定所述任一音頻幀的語音識別結果為所述目標識別結果，所述目標識別結果用于指示所述任一音頻幀為非語音音頻。

6.根據權利要求1所述的方法，其特征在于，所述對所述處理后的音頻進行風格轉換處理，得到目標音頻，包括：

對所述處理后的音頻進行語音識別處理，得到所述處理后的音頻的文本信息；

確定目標語言，并根據所述目標語言對所述處理后的音頻的文本信息進行語音合成處理，得到目標音頻。

7.根據權利要求6所述的方法，其特征在于，所述對所述處理后的音頻進行語音識別處理，得到所述處理后的音頻的文本信息，包括：

獲取基礎發音詞表，所述基礎發音詞表包括文字與一種或多種語言發音的映射關系；

對所述處理后的音頻進行語音識別處理，確定所述處理后的音頻中每個分詞的語言發音；

根據所述每個分詞的語言發音以及所述基礎發音詞表，確定所述處理后的音頻的文本信息。

8.根據權利要求1所述的方法，其特征在于，所述對所述任一音頻幀進行切分處理得到多個音頻片段，包括：

獲取所述任一音頻幀的音頻波形數據；

根據所述音頻波形數據，將所述任一音頻幀中的音頻寂靜區間確定為切分點；

根據確定的各個切分點對所述任一音頻幀進行切分處理得到多個音頻片段。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于騰訊科技（深圳）有限公司，未經騰訊科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110872240.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：文本圖像的處理方法、裝置、設備以及存儲介質
下一篇：一種改性四氧化三錳的制備方法及制品和應用

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】