[發明專利]一種短時語音條件下的說話人識別方法在審
| 申請號: | 201810207343.3 | 申請日: | 2018-03-13 |
| 公開(公告)號: | CN108461085A | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 李燕萍;劉俊坤;凌云志 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/00;G10L17/02 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 陳望坡;姚姣陽 |
| 地址: | 210003 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 瓶頸 語音特征向量 輸出網絡 置信 矢量量化模型 說話人識別 網絡模型 語音條件 語音 構建 預處理 語音特征數據 矢量量化 特征輸入 網絡結構 系統識別 去除 網絡 監督 | ||
1.一種短時語音條件下的說話人識別方法,其特征在于:包括以下步驟:
步驟(1):采集不同說話人的短時語音,并對所采集的不同說話人的短時語音進行預處理,提取不同說話人的語音特征向量,并對所提取的語音特征向量進行相應說話人標記;
步驟(2):用步驟(1)中得到的所有說話人的語音特征數據對深度置信網絡進行有監督的訓練,構建深度置信網絡模型;
步驟(3):將步驟(2)中構建完成的深度置信網絡模型中瓶頸層之后的網絡結構去除,形成瓶頸輸出網絡模型;
步驟(4):將步驟(1)中提取的不同說話人的語音特征向量依次經過步驟(3)中構建完成的瓶頸輸出網絡模型,提取得到相應的瓶頸特征,然后將提取到的瓶頸特征作為矢量量化輸入數據進行矢量量化訓練,構建矢量量化模型;
步驟(5):先將待識別短時語音的語音特征向量經過步驟(3)中構建的瓶頸輸出網絡模型,提取得到待識別短時語音的瓶頸特征,然后再將提取得到的待識別短時語音的瓶頸特征輸入步驟(4)中構建的矢量量化模型進行識別。
2.根據權利要求1所述的一種短時語音條件下的說話人識別方法,其特征在于:步驟(1)中采集說話人語音時長為不超過10s的短時語音。
3.根據權利要求1或2所述的一種短時語音條件下的說話人識別方法,其特征在于:步驟(1)中對短時語音的預處理包括:預加重、分幀加窗以及端點檢測。
4.根據權利要求1或2所述的一種短時語音條件下的說話人識別方法,其特征在于:步驟(1)中提取說話人語音特征向量的具體方法為:提取說話人語音40維MFCC參數,除去代表直流分量的第一維數據,然后進行5幀拼接成一超幀,形成195維的語音特征向量。
5.根據權利要求1所述的一種短時語音條件下的說話人識別方法,其特征在于:在步驟(2)中用步驟(1)中得到的所有說話人的語音特征數據對深度置信網絡進行有監督的訓練后,再經網絡逐層迭代預訓練,接著再用微調的算法構建深度置信網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810207343.3/1.html,轉載請聲明來源鉆瓜專利網。





