[發明專利]一種音頻處理方法和裝置有效

申請號：	201811167458.0	申請日：	2018-10-08
公開（公告）號：	CN111009259B	公開（公告）日：	2022-09-16
發明（設計）人：	李冬;龍德平;柯常志	申請（專利權）人：	杭州海康慧影科技有限公司
主分類號：	G10L21/034	分類號：	G10L21/034;G10L21/0208;G10L25/30;G10L25/24;G10L25/12
代理公司：	北京德琦知識產權代理有限公司 11018	代理人：	孫清然;王琦
地址：	310053 浙江省杭州市濱***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音頻處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種音頻處理方法，其特征在于，包括：

利用定向音頻采集設備輸出的音頻，對全向音頻采集設備輸出的音頻進行自適應增益調節；其中，當定向音頻采集設備對應的能量平均值大于預設的能量閾值時，如果定向音頻采集設備對應的能量平均值與全向音頻采集設備對應的能量平均值的比值小于預設的比例閾值，則對有效音頻進行相應的能量抑制處理；當定向音頻采集設備對應的能量平均值不大于能量閾值時，如果全向音頻采集設備對應的能量平均值大于預設的人耳可接受范圍的最大能量閾值，則對有效音頻進行相應的能量抑制處理，如果全向音頻采集設備對應的能量平均值小于預設的人耳可接受范圍的最小能量閾值，則對有效音頻進行相應的能量增強處理；其中，所述有效音頻為從全向音頻采集設備的音頻中分離出來的；

對所述自適應增益調節的結果和所述定向音頻采集設備的音頻進行混音，輸出混音結果。

2.根據權利要求1所述的方法，其特征在于，所述對全向音頻采集設備輸出的音頻進行自適應增益調節包括：

利用所述定向音頻采集設備輸出的音頻的能量平均值，對所述全向音頻采集設備輸出的音頻進行自適應增益調節。

3.根據權利要求2所述的方法，其特征在于，所述對全向音頻采集設備輸出的音頻進行自適應增益調節包括：

將所述定向音頻采集設備和所述全向音頻采集設備輸出的音頻分別轉換為單聲道音頻；

在每個采樣時刻，按照預設的滑動窗口，計算定向音頻采集設備的單聲道音頻和全向音頻采集設備的單聲道音頻分別在當前滑動窗口的能量平均值，并利用神經網絡模型，從當前滑動窗口對應的全向音頻采集設備的單聲道音頻中，分離出有效音頻；

根據所述能量平均值，對所述有效音頻進行增益自適應處理。

4.根據權利要求2所述的方法，其特征在于，所述對全向音頻采集設備輸出的音頻進行自適應增益調節包括：

將所述定向音頻采集設備和所述全向音頻采集設備輸出的音頻分別轉換為單聲道音頻；

利用第一語音回傳設備輸入的音頻，作為回聲消除的參考音頻，分別對定向音頻采集設備的所述單聲道音頻和全向音頻采集設備的所述單聲道音頻進行回聲消除；

在每個采樣時刻，按照預設的滑動窗口，計算定向音頻采集設備的消除回聲后的音頻在當前滑動窗口的能量平均值，以及全向音頻采集設備的消除回聲后的音頻在當前滑動窗口的能量平均值，并利用神經網絡模型，從當前滑動窗口對應的全向音頻采集設備的消除回聲后的音頻中，分離出有效音頻；根據所述能量平均值，對所述有效音頻進行增益自適應處理。

5.根據權利要求3或4所述的方法，其特征在于，所述分離出有效音頻包括：

對于當前滑動窗口對應的全向音頻采集設備的單聲道音頻，或者當前滑動窗口對應的全向音頻采集設備的消除回聲后的音頻，進行耳蝸濾波處理；

從經過所述耳蝸濾波處理后的音頻中，提取出時域特征，所述時域特征包括梅爾倒譜系數MFCC、感知線性預測系數PLP以及幅度調制譜；

采用有監督的學習方式，將所述時域特征作為所述神經網絡模型的輸入，對所述神經網絡模型進行訓練，得到相應的模型參數；

基于所述模型參數，利用所述神經網絡模型估計出時域上的二值掩蔽IBM；

利用所述二值掩蔽，對經過所述耳蝸濾波處理后的音頻進行波形重構，提取出所述有效音頻。

6.根據權利要求3或4所述的方法，其特征在于，所述神經網絡模型為卷積神經網絡模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于杭州海康慧影科技有限公司，未經杭州海康慧影科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811167458.0/1.html，轉載請聲明來源鉆瓜專利網。