[發明專利]一種語音增強方法和裝置在審
| 申請號: | 202110773231.6 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113506581A | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 陳澤華;吳俊儀;蔡玉玉;雪巍;丁國宏 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王治東 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 增強 方法 裝置 | ||
本發明提供一種語音增強方法和裝置,其中所述方法包括:接收輸入的帶噪語音信號;將所述帶噪語音信號輸入至語音增強模型中,依次進行卷積處理、反卷積處理以及融合處理生成純凈語音信號;其中,所述語音增強模型包括編碼器和解碼器,通過編碼器的多個卷積層的不同尺寸的卷積核進行所述卷積處理,通過解碼器的多個反卷積層的多個不同尺寸的反卷積核進行所述反卷積處理。由于每個卷積層中有多個不同尺寸的卷積核、每個反卷積層中有多個不同尺寸的反卷積核,不同尺寸的卷積核能捕捉不同尺度的特征,最終的語音增強效果也會有所提升,從而可以將不同尺寸的卷積核的卷積結果進行融合,以顯著提高最終的語音增強效果,且表現穩定。
技術領域
本發明涉及語音處理技術領域,尤其涉及一種語音增強方法和裝置、電子設備和存儲介質。
背景技術
隨著科技的迅速崛起和互聯網的廣泛普及,人工智能已經漸漸成為了許多重復性高、模式固定的工作的替代方案。其中,智能語音識別能力更是被應用于多個場景,例如使用語音代替打字輸入方式、智能語音交互硬件、電話智能客服等等。在語音信號純凈的情況下,識別為文字的準確率完全可達到實用標注,然而當輸入的語音信號由于背景環境等因素下音頻質量遭到影響時,識別準確率將會被嚴重影響,因此如何還原純凈語音已成為目前語音識別技術最需攻克的難點之一。
現有技術中,語音增強任務主要通過深度神經網絡(Deep Neural Network,DNN)實現。大部分語音增強的研究集中在DNN的宏觀架構、損失函數和預測目標上。改變DNN的宏觀架構和損失函數旨在使DNN的學習過程更高效、最終語音增強的測評效果更好。
在語音增強研究領域,除了對DNN的宏觀架構、損失函數和預測目標的研究,對DNN中使用的卷積核(Kernel)的大小的研究一直很少。大部分研究使用的卷積核為3*3或者5*5,但是單一尺寸卷積核的效果有局限性,對帶噪語音的增強效果并不穩定。
發明內容
本發明提供一種語音增強方法和裝置、電子設備和存儲介質,用以解決現有技術中存在的技術缺陷。
本發明提供一種語音增強方法,包括:
接收輸入的帶噪語音信號;
將所述帶噪語音信號輸入至語音增強模型中,依次進行卷積處理、反卷積處理以及融合處理生成純凈語音信號;
其中,所述語音增強模型包括編碼器和解碼器,通過編碼器的多個卷積層的不同尺寸的卷積核進行所述卷積處理,通過解碼器的多個反卷積層的多個不同尺寸的反卷積核進行所述反卷積處理。
根據本發明提供的一種語音增強方法,將所述帶噪語音信號輸入至語音增強模型中,依次進行卷積處理、反卷積處理以及融合處理生成純凈語音信號,包括:
將所述帶噪語音信號輸入至所述編碼器進行卷積處理生成語音卷積向量;
將所述語音卷積向量輸入至所述解碼器進行反卷積處理生成語音反卷積向量;
將所述語音反卷積向量輸入至所述語音增強模型的融合層進行融合處理生成純凈語音信號。
根據本發明提供的一種語音增強方法,將所述帶噪語音信號輸入至所述編碼器進行卷積處理生成語音卷積向量,包括:
將所述帶噪語音信號依次經由編碼器的每個卷積層的多個不同尺寸的卷積核進行卷積處理,得到每個卷積層輸出的語音卷積向量,并將每個卷積層輸出的語音卷積向量輸入至下一個卷積層;
其中,所述每個卷積層輸出的語音卷積向量為將多個不同尺寸的卷積核的處理結果沿通道層進行拼接生成,且輸出的所述語音卷積向量的通道數與多個不同尺寸的所述卷積核的通道數相同。
根據本發明提供的一種語音增強方法,將所述語音卷積向量輸入至所述解碼器進行反卷積處理生成語音反卷積向量,包括:
對于第一個反卷積層:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110773231.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可調控的介質手性納米增強裝置及系統
- 下一篇:燃料電池系統控制器和相關的方法





