[發明專利]一種基于線性回歸的聲紋識別方法及系統有效
| 申請號: | 201810141059.0 | 申請日: | 2018-02-11 |
| 公開(公告)號: | CN108091326B | 公開(公告)日: | 2021-08-06 |
| 發明(設計)人: | 張曉雷 | 申請(專利權)人: | 張曉雷 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L17/02;G10L17/04;G10L17/22 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 楊華;王寶筠 |
| 地址: | 710072 陜西省西安市友誼西路*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 線性 回歸 聲紋 識別 方法 系統 | ||
1.一種基于線性回歸的聲紋識別方法,其特征在于,包括:
從語音數據中獲取第一聲紋特征矢量;
使用預先訓練的線性回歸模型,將所述第一聲紋特征矢量映射為第二聲紋特征矢量;
對所述第二聲紋特征矢量進行分類識別;
其中,所述線性回歸模型的訓練過程包括:
從聲紋數據庫中獲取訓練數據其中,xi,j為從所述聲紋數據庫中的每句話抽取的一個d維的聲紋特征矢量,i=1,...,n,j=1,...,Mi,n為所述聲紋數據庫中的說話人的數量,任意一個說話人對應Mi句話;yi,j為第i個說話人的n維示性矢量yi,j=[0,...,1,...,0]T;d為預設數值;
使用A=(XXT)-1XYT,得到所述線性回歸模型,其中,為訓練數據的聲紋矢量組成的的矩陣,為訓練數據的示性矢量組成的的矩陣。
2.根據權利要求1所述的方法,其特征在于,所述將所述第一聲紋特征矢量映射為第二聲紋特征矢量包括:
使用映射關系z=ATx,將所述第一聲紋特征矢量映射為第二聲紋特征矢量,其中,A為所述預先訓練的線性回歸模型,x為所述第一聲紋特征矢量,z為所述第二聲紋特征矢量。
3.根據權利要求1所述的方法,其特征在于,所述對所述第二聲紋特征矢量進行分類識別包括:
使用余弦分類器,對所述第二聲紋特征矢量進行分類識別。
4.根據權利要求1所述的方法,其特征在于,所述從語音數據中獲取第一聲紋特征矢量包括:
使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法,從語音數據中獲取第一聲紋特征矢量。
5.一種基于線性回歸的聲紋識別系統,其特征在于,包括:
聲紋特征提取前端,用于從語音數據中獲取第一聲紋特征矢量;
聲紋識別后端,所述聲紋識別后端包括聲紋特征映射模塊和聲紋分類器,所述聲紋特征映射模塊用于使用預先訓練的線性回歸模型,將所述第一聲紋特征矢量映射為第二聲紋特征矢量;所述聲紋分類器用于對所述第二聲紋特征矢量進行分類識別;
其中,所述聲紋特征映射模塊還用于:
從聲紋數據庫中獲取訓練數據其中,xi,j為從所述聲紋數據庫中的每句話抽取的一個d維的聲紋特征矢量,i=1,...,n,j=1,...,Mi,n為所述聲紋數據庫中的說話人的數量,任意一個說話人對應Mi句話;yi,j為第i個說話人的n維示性矢量yi,j=[0,...,1,...,0]T;d為預設數值;
使用A=(XXT)-1XYT,得到所述線性回歸模型,其中,為訓練數據的聲紋矢量組成的的矩陣,為訓練數據的示性矢量組成的的矩陣。
6.根據權利要求5所述的系統,其特征在于,所述聲紋特征映射模塊用于使用預先訓練的線性回歸模型,將所述第一聲紋特征矢量映射為第二聲紋特征矢量包括:
所述聲紋特征映射模塊具體用于,使用映射關系z=ATx,將所述第一聲紋特征矢量映射為第二聲紋特征矢量,其中,A為所述預先訓練的線性回歸模型,x為所述第一聲紋特征矢量,z為所述第二聲紋特征矢量。
7.根據權利要求5所述的系統,其特征在于,所述聲紋分類器包括:余弦分類器。
8.根據權利要求5所述的系統,其特征在于,所述聲紋特征提取前端包括:
GMM/i-vector前端、DNN/i-vector前端或者d-vector前端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張曉雷,未經張曉雷許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810141059.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于姓氏的語音識別系統及方法
- 下一篇:一種智能語音設備控制方法





