[發明專利]語音增加方法、系統、裝置及存儲介質有效
| 申請號: | 202010424011.8 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111599371B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 鄢戈;王飛;唐浩元;王佳珺;王歡良 | 申請(專利權)人: | 蘇州奇夢者網絡科技有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30;G10L25/51;G10L17/24 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 陳松 |
| 地址: | 215024 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 增加 方法 系統 裝置 存儲 介質 | ||
本發明涉及一種語音信號的處理方法,尤其是語音增強方法,包括以下步驟:S10、音頻采集;S20、篩選有效語音信號;S30、初步增強語音;S40、篩選目標語音;S50、再次增強語音信號;S60、喚醒詞檢測,將再次增強的語音送入高精度的喚醒詞檢測模型中進行喚醒詞檢測,當檢測到喚醒詞時進入S70,否則返回S20;S70、持續增強語音,對通過喚醒詞檢測的語音進行持續增強,然后將增強后的語音送入識別端進行識別。本發明提供的語音增強方法可以有效的降低計算開銷,即使在有強噪聲場景下也能較準確的進行識別任務。適合應用在環境較復雜且計算資源有限的本地端。
技術領域
本發明涉及一種語音信號的處理方法,尤其是語音增強方法、系統、裝置及存儲介質。
背景技術
語音增強是指從接收到的復雜的語音信號中提取有效的目標語音信號,降低或者抑制來自非目標語音信號的干擾的技術手段。目前語音增強算法通常需要預先知道目標聲源的方位或者噪聲的先驗分布后通過一定的算法來進行語音增強。
然而在實際較強噪聲的應用場景中,由于無法事先確定哪一個是目標聲源,可能會導致聲源定位不準確,影響后續的語音信號處理;而且相對復雜和較為精準的聲源定位算法以及語音增強算法往往都意味著計算復雜度較高,需要提供較大的計算資源。所以,傳統的語音增強算法和系統對某些應用場景存在一定的局限性。
發明內容
為解決上述問題,本發明提供一種在只有低計算資源設備的條件下,針對強噪聲場景下的語音信號,依然可以做到有效的語音喚醒和語音識別的語音增加方法,具體技術方案為:
語音增強方法,包括以下步驟:
S10、音頻采集,通過音頻采集設備不斷的采集多通道音頻信號;
S20、篩選有效語音信號,用語音活動檢測對接收到的音頻信號進行不間斷的檢測篩選,篩選出有效語音信號;
S30、初步增強語音,對篩選出的有效語音信號進行初步增強,所述初步增強包括采用固定波束語音增強算法同時對多個方向進行語音增強;
S40、篩選目標語音,將初步增強的語音送入評分模型中進行評分,選擇評分最高且大于指定閾值的語音信號,得到該信號的方向;
S50、再次增強語音信號,對篩選的目標語音進行再次增強,所述再次增強包括采用高性能的語音增強算法;
S60、喚醒詞檢測,將再次增強的語音送入高精度的喚醒詞檢測模型中進行喚醒詞檢測,當檢測到喚醒詞時進入S70,否則返回S20;
S70、持續增強語音,對通過喚醒詞檢測的語音進行持續增強,然后將增強后的語音送入識別端進行識別。
進一步的,所述固定波束語音增強算法包括廣義旁瓣相消算法或權重延遲相加算法。
進一步的,所述評分模型包括深度神經網絡喚醒模型,所述深度神經網絡喚醒模型包括評分特征提取模塊,所述評分特征提取模塊用于對送入的初步增強的語音提取與模型匹配的特征;評分深度神經網絡模塊,所述評分深度神經網絡模塊用于將每一幀的語音特征轉化為指定關鍵字與其它無關字的后驗概率;評分喚醒決策模塊,所述評分喚醒決策模塊用于通過一段語音信號的后驗概率來判斷該段語音是否可以被喚醒。
進一步的,所述深度神經網絡喚醒模型的層數為3-5層,節點數在30-40。
進一步的,所述喚醒決策模塊的喚醒詞包括兩個字。
進一步的,所述高性能語音增強算法包括最小方差無失真響應算法或基于混合高斯模型的最小方差無失真響應算法。
進一步的,所述喚醒詞檢測模型包括時間延遲網絡或者卷積神經網絡。
進一步的,
所述喚醒詞檢測模型包括
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州奇夢者網絡科技有限公司,未經蘇州奇夢者網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010424011.8/2.html,轉載請聲明來源鉆瓜專利網。





