[發明專利]基于注意力殘差學習的語音增強方法有效
| 申請號: | 202110224862.2 | 申請日: | 2021-03-01 |
| 公開(公告)號: | CN112992121B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 李學生;李晨;朱麒宇 | 申請(專利權)人: | 德魯動力科技(成都)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L21/02;G06N3/04;G06N3/08 |
| 代理公司: | 成都熠邦鼎立專利代理有限公司 51263 | 代理人: | 李曉英 |
| 地址: | 610000 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 學習 語音 增強 方法 | ||
1.基于注意力殘差學習的語音增強方法,其特征在于:包括以下步驟:
S1,模型訓練:
S1.1,收集帶噪語音數據;
S1.2,對帶噪語音進行特征提取;
S1.3,用S1.2提取的音頻特征對殘差注意力卷積神經網絡進行訓練,獲得訓練好的殘差神經網絡;
S2,語音增強:
S2.1,對目標語音數據進行特征提取;
S2.2,將S2.1提取的音頻特征輸入S1.3中訓練好的殘差注意力卷積神經網絡,得到預測的語音特征;
S2.3,語音波形重構:將S2.2預測得到的語音特征轉換成語音波形,得到非噪音語音;
所述殘差注意力卷積神經網絡包括依次串聯的Block1、第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5;所述Block1的輸出通過跳躍連接單元連接所述第二Block2的輸入,所述第二Block2的輸入通過跳躍連接單元連接第一Block4的輸入;
所述第一Block2、第二Block2、第一Block4、第二Block4、第三Block4和Block5中均引入了混合注意力機制;
所述Block1包括用于實現2倍下采樣的二維卷積層;
所述第一Block4、第二Block4、第三Block4均包括第三Block2和第四Block2;所述第三Block2與第四Block2串聯;
所述第一Block2、第二Block2、第三Block2和第四Block2均包括兩個二維卷積層,其第二個二維卷積層后方引入了混合注意力機制;
所述Block5包括兩個二維卷積層和sigmoid層,其第一個二維卷積層的前方引入了混合注意力機制;
所述第三Block2的輸入通過包含Block3的跳躍連接單元與第四Block2的輸入連接;
所述Block3包括兩個并行的二維池化層和用于將所述兩個二維池化層的輸出在最后一個張量維度上進行組合并輸出的Concatenate層。
2.根據權利要求1所述的基于注意力殘差學習的語音增強方法,其特征在于:第三Block4中所包含的block3中的二維池化層的池化區域用來實現2倍下采樣,padding用來使得輸入圖像面積和輸入圖像面積相等,concatenate層用于將兩個并行的二維池化層的輸出在最后一個張量維度上進行組合并輸出。
3.根據權利要求1或2所述的基于注意力殘差學習的語音增強方法,其特征在于:所述混合注意力機制的公式為:
(1)
式(1)中,表示最大池化,表示雙線值插值,S為得到的注意力機制權重,表示sigmoid函數;、為卷積核權重;、為卷積核偏差。
4.根據權利要求1或2所述的基于注意力殘差學習的語音增強方法,其特征在于:所述S1.2提取的音頻特征包括短時過零率、短時平均能量、短時平均幅度、能量熵、頻譜質心、譜熵、頻譜通量、梅爾頻率倒譜系數、色譜圖中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于德魯動力科技(成都)有限公司,未經德魯動力科技(成都)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110224862.2/1.html,轉載請聲明來源鉆瓜專利網。





