[發明專利]基于自注意力機制的語音活動檢測方法、裝置及存儲介質有效
| 申請號: | 202010117497.0 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111341351B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 方澤煌;康元勛 | 申請(專利權)人: | 廈門億聯網絡技術股份有限公司 |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L25/84;G10L25/30;G10L13/02 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郭浩輝;麥小嬋 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 機制 語音 活動 檢測 方法 裝置 存儲 介質 | ||
1.一種基于自注意力機制的語音活動檢測方法,其特征在于,包括:
采集待處理語音,對所述待處理語音進行語音合成處理,得到待檢測語音;其中,所述待處理語音包括純凈語音和原始噪聲,語音合成公式為:
Smix=α×Sclean+β×N
其中,Smix為合成的待檢測語音,Sclean為純凈語音,N為原始噪聲,α為純凈語音的衰減系數,0.3≤α≤1;β為原始噪聲的衰減系數,0.3≤β≤1;
對所述待檢測語音進行特征提取,得到所述待檢測語音的多維特征;
建立基于自注意力機制的RNN模型,并將所述多維特征輸入至所述RNN模型;
對所述RNN模型進行訓練,得到語音檢測模型;其中,所述語音檢測模型包括依次連接的輸入層、全連接層、門控循環單元層、注意力層和輸出層;
所述語音檢測模型根據所述多維特征計算所述待檢測語音的狀態值,并根據所述狀態值判斷所述待檢測語音的類別;
其中,所述對所述待檢測語音進行特征提取,得到所述待檢測語音的多維特征,具體為:
對所述待檢測語音進行加窗分幀處理并進行快速傅里葉變換,并計算每幀待檢測語音的幅度譜;
通過采用巴爾刻度將所述幅度譜平均分為22個子頻帶,并計算每一所述子頻帶的對數譜;
分別對所述對數譜進行一階差分計算和二階差分計算,得到一階差分數值和二階差分數值;
將所述22個子頻帶、所述一階差分數值和所述二階差分數值進行串聯得到所述待檢測語音的66維特征。
2.如權利要求1所述的基于自注意力機制的語音活動檢測方法,其特征在于,所述采集待處理語音,對所述待處理語音進行語音合成處理,得到待檢測語音,具體為:
采集純凈語音以及不同場景的原始噪聲,根據預設的篩選規則對所述原始噪聲進行篩選,得到常規噪聲;對所述純凈語音和所述常規噪聲進行語音合成處理,得到待檢測語音。
3.如權利要求1所述的基于自注意力機制的語音活動檢測方法,其特征在于,所述對所述RNN模型進行訓練,得到語音檢測模型,具體為:
采用Adam訓練策略和loss函數對所述RNN模型進行訓練,得到語音檢測模型。
4.如權利要求1所述的基于自注意力機制的語音活動檢測方法,其特征在于,所述語音檢測模型根據所述多維特征計算所述待檢測語音的狀態值,并根據所述狀態值判斷所述待檢測語音的類別,具體為:
所述語音檢測模型根據所述多維特征計算所述待檢測語音的狀態值,并將所述狀態值與預設閾值進行比對,若所述狀態值小于所述預設閾值,則判斷所述待檢測語音為非語音信號;若所述狀態值大于或等于所述預設閾值,則判斷所述待檢測語音為語音信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門億聯網絡技術股份有限公司,未經廈門億聯網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010117497.0/1.html,轉載請聲明來源鉆瓜專利網。





