[發明專利]音頻處理方法、裝置、存儲介質及計算機程序有效

申請號：	202111194926.5	申請日：	2021-10-14
公開（公告）號：	CN113643714B	公開（公告）日：	2022-02-18
發明（設計）人：	王子騰;納躍躍;劉章;田彪;付強	申請（專利權）人：	阿里巴巴達摩院（杭州）科技有限公司
主分類號：	G10L21/0208	分類號：	G10L21/0208
代理公司：	北京博浩百睿知識產權代理有限責任公司 11134	代理人：	謝湘寧
地址：	310023 浙江省杭州市余杭***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	音頻處理方法裝置存儲介質計算機程序
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種音頻處理方法，其特征在于，包括：

獲取待測試音頻的特征向量；

將所述待測試音頻的特征向量輸入目標模型進行處理，得到目標時頻掩蔽信息，其中，所述目標模型用于確定混響音頻對應的時頻掩蔽信息，所述時頻掩蔽信息用于將所述混響音頻處理為目標類型音頻，所述目標類型音頻中包含所述混響音頻對應的聲源的直達聲和早期反射聲；

根據所述目標時頻掩蔽信息處理所述待測試音頻，得到目標音頻；

在所述將所述待測試音頻的特征向量輸入目標模型進行處理，得到目標時頻掩蔽信息之前，所述方法還包括：

分別獲取不同空間內的聲源對應的房間沖擊響應特征，并獲取所述房間沖擊響應特征中的直達聲；

根據每個聲源發出的語音與對應的所述房間沖擊響應特征確定所述聲源對應的混響音頻，并根據所述聲源發出的語音與所述早期反射聲確定所述聲源對應的目標類型音頻；

根據每個聲源的所述混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息；

將每個所述混響音頻以及所述混響音頻對應的時頻掩蔽信息確定為一組樣本數據，得到多組樣本數據；

通過所述多組樣本數據訓練預設神經網絡模型，生成所述目標模型。

2.根據權利要求1所述的音頻處理方法，其特征在于，所述待測試音頻為目標空間中至少兩個采集器對聲源進行采集得到的音頻，所述目標模型用于確定同一聲源的至少兩個混響音頻對應的時頻掩蔽信息，所述獲取待測試音頻的特征向量包括：

分別計算所述目標空間中每個采集器采集到的音頻的特征向量，得到至少兩個特征向量；

對所述至少兩個特征向量進行拼接，生成所述待測試音頻的特征向量。

3.根據權利要求1所述的音頻處理方法，其特征在于，在所述根據每個聲源的所述混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息之前，所述方法還包括：

在所述聲源的所述混響音頻中加入噪聲信息，得到處理后的混響音頻；

所述根據每個聲源的所述混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息包括：

根據所述處理后的混響音頻以及所述目標類型音頻確定所述混響音頻對應的時頻掩蔽信息。

4.根據權利要求1所述的音頻處理方法，其特征在于，所述獲取待測試音頻的特征向量包括：

對所述待測試音頻進行傅里葉變換，得到所述待測試音頻的頻域信息，從所述頻域信息中獲取所述待測試音頻的特征向量；

所述根據所述目標時頻掩蔽信息處理所述待測試音頻，得到目標音頻包括：

采用所述目標時頻掩蔽信息處理所述待測試音頻，得到目標頻域信息，并對所述目標頻域信息進行逆傅里葉變換，得到所述目標音頻。

5.根據權利要求4所述的音頻處理方法，其特征在于，所述采用所述目標時頻掩蔽信息處理所述待測試音頻，得到目標頻域信息包括：

將所述目標時頻掩蔽信息處理與所述待測試音頻對應的時頻譜信息相乘，得所述目標頻域信息。

6.根據權利要求1所述的音頻處理方法，其特征在于，所述根據所述目標時頻掩蔽信息處理所述待測試音頻，得到目標音頻包括：

對所述目標時頻掩蔽信息進行平滑處理，并采用處理后的目標時頻掩蔽信息對所述待測試音頻進行處理，得到所述目標音頻；或者

采用所述目標時頻掩蔽信息處理所述待測試音頻，得到處理后的音頻，并對所述處理后的音頻進行平滑處理，得到所述目標音頻。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴達摩院（杭州）科技有限公司，未經阿里巴巴達摩院（杭州）科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111194926.5/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種礦用氣動清淤排污泵真空抽吸裝置
下一篇：一種基于圖像處理的吸管計數方法、裝置及存儲介質

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】

[發明專利]音頻處理方法、裝置、存儲介質及計算機程序有效

專利文獻下載

[發明專利]音頻處理方法、裝置、存儲介質及計算機程序有效