[發(fā)明專利]語音降噪方法、裝置、設備及存儲介質在審

申請?zhí)枺?/td>	202210413193.8	申請日：	2022-04-19
公開（公告）號：	CN114822578A	公開（公告）日：	2022-07-29
發(fā)明（設計）人：	盧志強	申請（專利權）人：	咪咕文化科技有限公司;中國移動通信集團有限公司
主分類號：	G10L21/0216	分類號：	G10L21/0216;G10L21/0232;G10L21/0224;G10L25/27
代理公司：	深圳市世紀恒程知識產(chǎn)權代理事務所 44287	代理人：	劉瑞花
地址：	100032 北京市西城區(qū)德***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音方法裝置設備存儲介質
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音降噪方法，其特征在于，所述語音降噪方法包括：

采集音頻流，并識別所述音頻流對應的場景類型；

根據(jù)所述場景類型選取預訓練的目標語音降噪模型；

采用所述目標語音降噪模型對所述音頻流對應的各個采樣點依次進行頻域降噪處理以及時域降噪處理，得到所述各個采樣點的干凈時域信號；以及，

將所述各個采樣點的干凈時域信號進行重疊相加，得到降噪后的所述音頻流。

2.如權利要求1所述的方法，其特征在于，所述目標語音降噪模型包括短時傅里葉變換層、第一信號降噪層、短時傅里葉逆變換層、第一卷積層、第二信號降噪層、第二卷積層和信號重建層，所述短時傅里葉變換層、所述第一信號降噪層、所述短時傅里葉逆變換層、所述第一卷積層、所述第二信號降噪層、所述第二卷積層和所述信號重建層依次連接。

3.如權利要求1或2所述的方法，其特征在于，所述識別所述音頻流對應的場景類型的步驟之后，還包括：

根據(jù)所述場景類型確定所述目標語音降噪模型的降噪?yún)?shù)，所述降噪?yún)?shù)用于調節(jié)所述目標語音降噪模型的降噪效果。

4.如權利要求1或2所述的方法，其特征在于，所述采用所述目標語音降噪模型對所述音頻流對應的各個采樣點依次進行頻域降噪處理以及時域降噪處理，得到所述各個采樣點的干凈時域信號的步驟包括：

對所述各個采樣點進行短時傅里葉變換，得到所述各個采樣點的頻域信號；

對所述各個采樣點的頻域信號進行降噪處理；

對降噪處理后的各個所述頻域信號進行短時傅里葉逆變換，得到所述各個采樣點的第一時域信號；

對所述各個采樣點的第一時域信號的第一時域特征進行降維，得到具有第二時域特征的各個所述第一時域信號；

對具有第二時域特征的各個所述第一時域信號進行降噪，得到所述各個采樣點的第二時域信號；

根據(jù)所述各個采樣點的第二時域信號確定所述各個采樣點的干凈時域信號。

5.如權利要求1或2所述的方法，其特征在于，所述將所述各個采樣點的干凈時域信號進行重疊相加，得到降噪后的所述音頻流的步驟包括：

對所述各個采樣點的干凈時域信號的第三時域特征進行升維，得到具有第四時域特征的各個所述干凈時域信號；

對具有第四時域特征的各個所述干凈時域信號進行重疊相加，得到降噪后的所述音頻流。

6.如權利要求1所述的方法，其特征在于，所述識別所述音頻流對應的場景類型的步驟包括：

采用預先訓練的聲學場景識別模型識別所述音頻流，得到所述音頻流對應的場景類型。

7.如權利要求6所述的方法，其特征在于，所述聲學場景識別模型包括卷積層、池化層、全連接層和歸一化指數(shù)函數(shù)層，卷積層、池化層、全連接層和歸一化指數(shù)函數(shù)層依次連接，所述采用預先訓練的聲學場景識別模型識別所述音頻流，得到所述音頻流對應的場景類型的步驟包括：

提取所述音頻流的梅爾頻譜特征；

采用所述卷積層、所述池化層、所述全連接層和所述歸一化指數(shù)函數(shù)層對所述梅爾頻譜特征進行識別，得到多個預設場景類型和各個所述預設場景類型對應的概率；

將最大概率對應的預設場景類型作為所述場景類型。

8.一種語音降噪裝置，其特征在于，所述語音降噪裝置包括：

類型獲取模塊，用于采集音頻流，并識別所述音頻流對應的場景類型；

模型選擇模塊，用于根據(jù)所述場景類型選取預訓練的目標語音降噪模型；

語音降噪模塊，用于采用所述目標語音降噪模型對所述音頻流對應的各個采樣點依次進行頻域降噪處理以及時域降噪處理，得到所述各個采樣點的干凈時域信號；

語音重建模塊，用于將所述各個采樣點的干凈時域信號進行重疊相加，得到降噪后的所述音頻流。

9.一種終端設備，其特征在于，所述終端設備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的語音降噪程序，所述語音降噪程序被所述處理器執(zhí)行時實現(xiàn)如權利要求1-7中任一項所述的語音降噪方法的步驟。

10.一種存儲介質，其特征在于，其上存儲有語音降噪程序，所述語音降噪程序被處理器執(zhí)行時實現(xiàn)權利要求1-7中任一項所述的語音降噪方法的步驟。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于咪咕文化科技有限公司;中國移動通信集團有限公司，未經(jīng)咪咕文化科技有限公司;中國移動通信集團有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210413193.8/1.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種用于高方阻TOPcon電池P+面的銀鋁漿及其制備方法
下一篇：便攜式電纜剝切器

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】