[發明專利]一種基于殘差神經網絡的遠場語音說話人識別方法及裝置有效
| 申請號: | 202110231097.7 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112992155B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 張安妮;馮瑞 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L17/20;G10L15/04;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 郁旦蓉 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 語音 說話 識別 方法 裝置 | ||
1.一種基于殘差神經網絡的遠場語音說話人識別方法,用于在嘈雜混響且有多個說話人的環境下,對短時的待測音頻進行遠場語音說話人識別從而確定該待測音頻對應的說話人,其特征在于,包括如下步驟:
步驟S1-1,利用預定的預處理方法對所述待測音頻進行預處理得到預處理短時語音;
步驟S1-2,利用預先訓練好的語音活動檢測模型對所述預處理短時語音進行語音分割得到分割結果,并從濾除了噪聲以及靜音的分割結果中提取得到語音向量特征;
步驟S1-3,基于所述語音向量特征利用預先訓練好的殘差神經網絡模型進行說話人特征提取得到說話人嵌入向量;
步驟S1-4,基于預定的聲音特征庫對所述說話人嵌入向量進行相似度計算得到語音相似度值,根據該語音相似度值確定所述待測音頻對應的說話人,
其中,所述預處理方法包括如下步驟:
步驟S2-1,對所述待測音頻進行語音增強得到增強數據;
步驟S2-2,對所述增強數據進行有重疊的滑動窗口采樣得到采樣數據;
步驟S2-3,對所述采樣數據進行短時傅里葉變換得到變換后數據;
步驟S2-4,利用MFCC方法對所述變換后數據進行特征提取得到MFCC特征;
步驟S2-5,利用局部CMN歸一化方法對所述MFCC特征進行處理從而得到預處理短時語音,
所述語音活動檢測模型為基于U-Net神經網絡結構的語音活動檢測模型,所述語音活動檢測模型的網絡結構包括:
輸入層,該輸入層為conv2d,輸入維度為1*128*23的所述預處理短時語音,激活函數為LeakyRelu;
第二層下采樣層,該第二層下采樣層為conv2d,維度為8*64*12,激活函數為LeakyRelu;
第三層下采樣層,該第三層下采樣層為conv2d,維度為16*32*6,激活函數為LeakyRelu;
第四層下采樣層,該第四層下采樣層為conv2d,維度為32*16*3,激活函數為LeakyRelu;
第五層下采樣層,該第五層下采樣層為conv2d,維度為64*8*3,激活函數為LeakyRelu;
第六層下采樣層,該第六層下采樣層為conv2d,維度為128*4*3,激活函數為LeakyRelu;
第一層上采樣層,該第一層上采樣為deconv2d,維度為128*8*3,激活函數為LeakyRelu;
第二層上采樣層,該第二層上采樣為deconv2d,維度為64*16*3,激活函數為LeakyRelu;
第三層上采樣層,該第三層上采樣層為deconv2d,維度為32*32*6,激活函數為LeakyRelu;
第四層上采樣層,該第四層上采樣層為deconv2d,維度為16*64*12,激活函數為LeakyRelu;
第五層上采樣層,該第五層上采樣層為globalAVGpool,維度為1*128*12,激活函數為Sigmoid;以及
輸出層,輸出1*128的語音活動檢測掩碼,該語音活動檢測掩碼作為所述語音向量特征,
所述殘差神經網絡模型為基于ResNet34的殘差神經網絡模型。
2.根據權利要求1所述的基于殘差神經網絡的遠場語音說話人識別方法,其特征在于:
其中,所述殘差神經網絡模型包括1個conv2d輸入層、4個ResNetBlock層、1個統計池化層、1個Flatten層以及2個全連接Dense層。
3.根據權利要求1所述的基于殘差神經網絡的遠場語音說話人識別方法,其特征在于:
其中,所述殘差神經網絡模型在訓練過程中利用AM-softmax損失函數進行訓練。
4.一種基于殘差神經網絡的遠場語音說話人識別裝置,用于使用權利要求1-3中任意一項所述的基于殘差神經網絡的遠場語音說話人識別方法在嘈雜混響且有多個說話人的環境下,對短時的待測音頻進行遠場語音說話人識別從而確定該待測音頻對應的說話人,其特征在于,包括:
預處理模塊,利用預定的預處理方法對所述待測音頻進行預處理得到預處理短時語音;
語音向量特征提取模塊,利用預先訓練好的語音活動檢測模型對所述預處理短時語音進行語音分割得到分割結果,并從濾除了噪聲以及靜音的分割結果中提取得到語音向量特征;
說話人嵌入向量提取模塊,基于所述語音向量特征利用預先訓練好的殘差神經網絡模型進行說話人特征提取得到說話人嵌入向量;以及
說話人確定模塊,基于預定的聲音特征庫對所述說話人嵌入向量進行相似度計算得到語音相似度值,根據該語音相似度值確定所述待測音頻對應的說話人,
其中,所述語音活動檢測模型為基于U-Net神經網絡結構的語音活動檢測模型,
所述殘差神經網絡模型為基于ResNet34的殘差神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110231097.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于皮軌接口的快速裝夾機構
- 下一篇:一種醫院轉運車





