[發明專利]一種基于聲紋模型訓練的機器人語音識別控制方法在審
| 申請號: | 201711227504.7 | 申請日: | 2017-11-29 |
| 公開(公告)號: | CN107705792A | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 王國亮 | 申請(專利權)人: | 寧波高新區錦眾信息科技有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L17/04;G10L17/14;G10L15/02;G10L15/06;G10L15/08;G10L25/24 |
| 代理公司: | 上海申新律師事務所31272 | 代理人: | 俞滌炯 |
| 地址: | 315040 浙江省寧*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲紋 模型 訓練 機器人 語音 識別 控制 方法 | ||
技術領域
本發明涉及語音識別技術,尤其涉及一種基于聲紋模型訓練的機器人語音識別控制方法。
背景技術
目前,現有的很多機器人雖然具備語音識別的功能,但是在進行語音識別之前并沒有對用戶進行身份認證,這對用戶的隱私安全造成極大的隱患。
發明內容
針對現有的技術存在的上述問題,現提供一種基于聲紋模型訓練的機器人語音識別控制方法的技術方案,具體如下:
一種基于聲紋模型訓練的機器人語音識別控制方法,其中,所述方法包括:
接收用戶的語音數據;
判斷機器人當前語音識別模式為特定人語音識別模式或非特定人語音識別模式;
當判斷機器人當前語音識別模式為特定人語音識別模式時,對所述語音數據進行聲紋認證和語音識別;
當判斷機器人當前語音識別模式為非特定人語音識別模式時,對所述語音數據進行語音識別。
優選的,接收用戶的語音數據之前,需要建立背景模型庫和用戶聲紋模型,還包括:
采用聯合因子分析模型構建說話人空間、信道空間和殘差空間三個子空間;所述聯合因子分析模型的高斯均值向量表征為:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)
其中,k代表第k個高斯模型,i代表某一個語音段,s(i)表示說話人s的某一語音段,mk表示獨立于說話人和會話內容的均值向量,Uk表示特征信道矩陣,Vk表示特征說話人矩陣,Dk表示殘差空間矩陣;xi表示信道因子向量,ys(i)表示依賴于說話人的聲紋因子向量,zks(i)表示依賴于說話人和單個高斯模型的殘差因子向量。
優選的,建立背景模型庫包括:
采集語音信號作為訓練數據;
對采集的所述語音信號進行平衡性分析和處理,保持語音的長度相似,保證信道易變性和會話易變性的平衡;
對處理后的所述語音信號進行前端預處理;
針對所述語音信號中某個固定說話人的語音信號求統計量,構建特征信道矩陣Uk;
構建殘差空間矩陣Dk,完善用于聲紋識別的背景模型庫。
優選的,對處理后的語音信號進行前端預處理包括:
將所述語音信號分段加窗并計算得到梅爾頻率倒譜系數的特征參數流數據;
通過所述特征參數流數據訓練通用背景模型;
將所有所述語音信號根據最大后驗準則將其自適應到說話人模型上,并通過構建特征音空間的方法對表征特定所述說話人模型的參數進行降維處理;
通過稀疏數據的em算法最大化所有訓練數據中的整體似然度,針對所有說話人的語音信號求統計量,構建特征說話人矩陣Vk。
優選的,建立用戶聲紋模型包括:
接受用戶的訓練語音;
根據所述訓練語音建立用戶聲紋模型;
接受用戶的測試語音;
對所述測試語音進行測試歸一化和零歸一化分數規整,放大用戶和其他人的分數區別,以此設定門限值。
優選的,根據所述訓練語音建立用戶聲紋模型包括:
對所述訓練語音對應的聲紋模型進行訓練和識別,通過最大似然法訓練模型對信道因子向量xi、依賴于用戶的聲紋因子向量ys(i)、依賴于用戶和單個高斯模型的殘差因子向量zks(i)進行最大后驗概率估計,其中,ys(i)用以表征用戶的特征向量,xi和zks(i)用以補償信道易變性和會話易變性的干擾;
建立用戶聲紋模型。
優選的,當判斷機器人當前語音識別模式為特定人語音識別模式時,對所述語音數據進行聲紋認證和語音識別,所述聲紋認證包括:
對所述語音數據進行前端處理,前端處理包括端點檢測和語音增強;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于寧波高新區錦眾信息科技有限公司,未經寧波高新區錦眾信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711227504.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種透明光伏組件結構
- 下一篇:一種電池片串聯組件





