[發(fā)明專利]端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型、訓練方法有效
| 申請?zhí)枺?/td> | 202110263962.6 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112634882B | 公開(公告)日: | 2021-06-04 |
| 發(fā)明(設計)人: | 司馬華鵬;姚奧;湯毅平 | 申請(專利權)人: | 南京硅基智能科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L19/26;G10L25/87 |
| 代理公司: | 江蘇舜點律師事務所 32319 | 代理人: | 孫丹 |
| 地址: | 210000 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 端到端 實時 語音 端點 檢測 神經(jīng)網(wǎng)絡 模型 訓練 方法 | ||
1.一種端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型,其特征在于,所述模型至少包括神經(jīng)網(wǎng)絡濾波器、循環(huán)神經(jīng)網(wǎng)絡RNN層、多特征融合層;
所述神經(jīng)網(wǎng)絡濾波器至少包括卷積子層,所述卷積子層配置包括,對目標音頻信號進行特征提取,以輸出所述目標音頻信號的第一特征;其中,所述卷積子層是根據(jù)帶通濾波器幅值建立的,所述帶通濾波器幅值由濾波器訓練參數(shù)進行確定,所述濾波器訓練參數(shù)是根據(jù)預先設置的樣本數(shù)據(jù)訓練所得到的;所述第一特征為所述目標音頻信號的局部特征,所述第一特征是根據(jù)訓練得到的所述濾波器訓練參數(shù)提取的;
所述RNN層配置包括,輸入所述第一特征,并至少根據(jù)所述第一特征獲取所述目標音頻信號的第二特征;所述第二特征為所述目標音頻信號的局部特征;
所述多特征融合層配置包括,對所述RNN層中的至少一個子層所獲取的所述第二特征進行特征融合,以得到所述目標音頻信號的表示。
2.根據(jù)權利要求1所述的端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型,其特征在于,所述濾波器訓練參數(shù)至少包括帶通濾波器低截止頻率以及帶通濾波器高截止頻率。
3.一種端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的訓練方法,應用于權利要求1或2所述的端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型;其特征在于:
所述方法包括:
根據(jù)濾波器訓練參數(shù),確定帶通濾波器幅值,并根據(jù)所述帶通濾波器幅值建立卷積子層;
將樣本數(shù)據(jù)中的樣本輸入值輸入至所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型以得到輸出值;
根據(jù)所述輸出值與樣本輸出值之間的偏差確定所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的損失值;
調(diào)整所述濾波器訓練參數(shù),使所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的損失值減小;
當所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的損失值小于或等于預設閾值時,對應的濾波器訓練參數(shù)確定為濾波器訓練參數(shù)輸出值。
4.根據(jù)權利要求3所述的一種端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的訓練方法,其特征在于,所述根據(jù)所述輸出值與樣本輸出值之間的偏差確定所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的損失值,包括:
根據(jù)所述輸出值、所述樣本輸出值以及預設的神經(jīng)網(wǎng)絡濾波器損失函數(shù)確定所述模型的第一損失值;其中,所述神經(jīng)網(wǎng)絡濾波器損失函數(shù)為交叉熵函數(shù)。
5.根據(jù)權利要求3所述的一種端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的訓練方法,其特征在于,還包括以下步驟:
所述的調(diào)整所述濾波器訓練參數(shù),使所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的損失值減小,其調(diào)整方式為,逐次迭代調(diào)整所述濾波器訓練參數(shù),使所述端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的損失值逐次減小。
6.根據(jù)權利要求3所述的端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的訓練方法,其特征在于,所述訓練方法還包括:
根據(jù)預設的人聲音頻數(shù)據(jù)和噪聲音頻數(shù)據(jù)以生成所述樣本數(shù)據(jù),其中,所述樣本數(shù)據(jù)至少包括所述人聲音頻數(shù)據(jù)、所述噪聲音頻數(shù)據(jù)以及混合數(shù)據(jù);所述混合數(shù)據(jù)是所述人聲音頻數(shù)據(jù)與所述噪聲音頻數(shù)據(jù)按照預設的信噪比進行混合處理后得到的。
7.根據(jù)權利要求3所述的端到端實時語音端點檢測神經(jīng)網(wǎng)絡模型的訓練方法,其特征在于,所述根據(jù)所述帶通濾波器幅值建立所述卷積子層,還包括:
根據(jù)所述帶通濾波器幅值建立帶通濾波器;
根據(jù)所述帶通濾波器與預設的窗函數(shù),對所述帶通濾波器進行加窗處理,以建立所述卷積子層;所述窗函數(shù)包括以下之一:Hann函數(shù)、Balckman函數(shù)、Kaiser函數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京硅基智能科技有限公司,未經(jīng)南京硅基智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110263962.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





