[發(fā)明專利]人聲激活檢測方法、裝置、計算機設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110425564.X | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113113001A | 公開(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計)人: | 徐泓洋;王廣新;楊漢丹 | 申請(專利權(quán))人: | 深圳市友杰智新科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L21/0272 |
| 代理公司: | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝;曹勇 |
| 地址: | 518000 廣東省深圳市南山區(qū)招商*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 人聲 激活 檢測 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
1.一種人聲激活檢測方法,其特征在于,包括以下步驟:
實時采集語音數(shù)據(jù);所述語音數(shù)據(jù)包括多幀音頻數(shù)據(jù);
提取所述語音數(shù)據(jù)中每一幀音頻數(shù)據(jù)對應(yīng)的語音特征向量;
依序?qū)㈩A設(shè)幀音頻數(shù)據(jù)對應(yīng)的語音特征向量輸入至預設(shè)的人聲激活檢測模型中;其中,輸入的所述預設(shè)幀音頻數(shù)據(jù)對應(yīng)的語音特征向量包括當前幀及其上下文的多幀音頻數(shù)據(jù)分別對應(yīng)的語音特征向量;
基于所述人聲激活檢測模型,檢測所述預設(shè)幀音頻數(shù)據(jù)中是否包括人聲。
2.根據(jù)權(quán)利要求1所述的人聲激活檢測方法,其特征在于,所述人聲激活檢測模型至少包括第一卷積層、第二卷積層、第三卷積層以及分類層;
所述基于所述人聲激活檢測模型,檢測所述預設(shè)幀音頻數(shù)據(jù)中是否包括人聲的步驟,包括:
將所述預設(shè)幀音頻數(shù)據(jù)對應(yīng)的語音特征向量輸入至所述第一卷積層進行卷積運算,得到第一中間特征向量;
將所述第一中間特征向量輸入至所述第二卷積層進行卷積運算,得到第二中間特征向量;
將所述第二中間特征向量輸入至所述第三卷積層進行卷積運算,得到第三中間特征向量;
將所述第三中間特征向量輸入至所述分類層中進行分類,得出所述預設(shè)幀音頻數(shù)據(jù)中是否包括人聲的檢測結(jié)果。
3.根據(jù)權(quán)利要求2所述的人聲激活檢測方法,其特征在于,所述第一卷積層、第二卷積層、第三卷積層為一維膨脹卷積網(wǎng)絡(luò);其中,所述第一卷積層的dilate=1,context=3,所述第二卷積層的dilate=3,context=3,所述第三卷積層的dilate=3,context=15。
4.根據(jù)權(quán)利要求1所述的人聲激活檢測方法,其特征在于,所述實時采集語音數(shù)據(jù)的步驟之前,還包括:
獲取訓練數(shù)據(jù);所述訓練數(shù)據(jù)包括多幀訓練音頻,所述訓練數(shù)據(jù)為帶噪的音頻文件;
提取每一幀訓練音頻對應(yīng)的訓練特征向量;
依序?qū)㈩A設(shè)幀訓練音頻對應(yīng)的訓練特征向量輸入至時延神經(jīng)網(wǎng)絡(luò)中進行訓練,得到所述人聲激活檢測模型。
5.根據(jù)權(quán)利要求4所述的人聲激活檢測方法,其特征在于,所述獲取訓練數(shù)據(jù)的步驟,包括:
獲取干凈的人聲語音;其中,所述干凈的人聲語音為不包括噪聲以及混響的語音;
基于預設(shè)的語音識別模型檢測所述干凈的人聲語音中每個字對應(yīng)的音頻幀;
將所述干凈的人聲語音中每個字對應(yīng)的音頻幀標注為第一標簽,將其余的音頻幀標注為第二標簽;
對標注后的所述干凈的人聲語音進行加噪以及加混響處理,得到所述訓練數(shù)據(jù)。
6.一種人聲激活檢測裝置,其特征在于,包括:
采集單元,用于實時采集語音數(shù)據(jù);所述語音數(shù)據(jù)包括多幀音頻數(shù)據(jù);
第一提取單元,用于提取所述語音數(shù)據(jù)中每一幀音頻數(shù)據(jù)對應(yīng)的語音特征向量;
第一輸入單元,用于依序?qū)㈩A設(shè)幀音頻數(shù)據(jù)對應(yīng)的語音特征向量輸入至預設(shè)的人聲激活檢測模型中;其中,輸入的所述預設(shè)幀音頻數(shù)據(jù)對應(yīng)的語音特征向量包括當前幀及其上下文的多幀音頻數(shù)據(jù)分別對應(yīng)的語音特征向量;
檢測單元,用于基于所述人聲激活檢測模型,檢測所述預設(shè)幀音頻數(shù)據(jù)中是否包括人聲。
7.根據(jù)權(quán)利要求6所述的人聲激活檢測裝置,其特征在于,所述人聲激活檢測模型至少包括第一卷積層、第二卷積層、第三卷積層以及分類層;
所述檢測單元,具體用于:
將所述預設(shè)幀音頻數(shù)據(jù)對應(yīng)的語音特征向量輸入至所述第一卷積層進行卷積運算,得到第一中間特征向量;
將所述第一中間特征向量輸入至所述第二卷積層進行卷積運算,得到第二中間特征向量;
將所述第二中間特征向量輸入至所述第三卷積層進行卷積運算,得到第三中間特征向量;
將所述第三中間特征向量輸入至所述分類層中進行分類,得出所述預設(shè)幀音頻數(shù)據(jù)中是否包括人聲的檢測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市友杰智新科技有限公司,未經(jīng)深圳市友杰智新科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110425564.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





