[發(fā)明專利]一種基于聲紋模型訓(xùn)練的機器人語音識別控制方法在審
| 申請?zhí)枺?/td> | 201711227504.7 | 申請日: | 2017-11-29 |
| 公開(公告)號: | CN107705792A | 公開(公告)日: | 2018-02-16 |
| 發(fā)明(設(shè)計)人: | 王國亮 | 申請(專利權(quán))人: | 寧波高新區(qū)錦眾信息科技有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L17/04;G10L17/14;G10L15/02;G10L15/06;G10L15/08;G10L25/24 |
| 代理公司: | 上海申新律師事務(wù)所31272 | 代理人: | 俞滌炯 |
| 地址: | 315040 浙江省寧*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 聲紋 模型 訓(xùn)練 機器人 語音 識別 控制 方法 | ||
1.一種基于聲紋模型訓(xùn)練的機器人語音識別控制方法,其特征在于,所述方法包括:
接收用戶的語音數(shù)據(jù);
判斷機器人當(dāng)前語音識別模式為特定人語音識別模式或非特定人語音識別模式;
當(dāng)判斷機器人當(dāng)前語音識別模式為特定人語音識別模式時,對所述語音數(shù)據(jù)進(jìn)行聲紋認(rèn)證和語音識別;
當(dāng)判斷機器人當(dāng)前語音識別模式為非特定人語音識別模式時,對所述語音數(shù)據(jù)進(jìn)行語音識別。
2.如權(quán)利要求1所述的方法,其特征在于,接收用戶的語音數(shù)據(jù)之前,需要建立背景模型庫和用戶聲紋模型,還包括:
采用聯(lián)合因子分析模型構(gòu)建說話人空間、信道空間和殘差空間三個子空間;所述聯(lián)合因子分析模型的高斯均值向量表征為:
Mki=mk+Ukxi+Vkys(i)+Dkzks(i)
其中,k代表第k個高斯模型,i代表某一個語音段,s(i)表示說話人s的某一語音段,mk表示獨立于說話人和會話內(nèi)容的均值向量,Uk表示特征信道矩陣,Vk表示特征說話人矩陣,Dk表示殘差空間矩陣;xi表示信道因子向量,ys(i)表示依賴于說話人的聲紋因子向量,zks(i)表示依賴于說話人和單個高斯模型的殘差因子向量。
3.如權(quán)利要求2所述的方法,其特征在于,建立背景模型庫包括:
采集語音信號作為訓(xùn)練數(shù)據(jù);
對采集的所述語音信號進(jìn)行平衡性分析和處理,保持語音的長度相似,保證信道易變性和會話易變性的平衡;
對處理后的所述語音信號進(jìn)行前端預(yù)處理;
針對所述語音信號中某個固定說話人的語音信號求統(tǒng)計量,構(gòu)建特征信道矩陣Uk;
構(gòu)建殘差空間矩陣Dk,完善用于聲紋識別的背景模型庫。
4.如權(quán)利要求3所述的方法,其特征在于,對處理后的語音信號進(jìn)行前端預(yù)處理包括:
將所述語音信號分段加窗并計算得到梅爾頻率倒譜系數(shù)的特征參數(shù)流數(shù)據(jù);
通過所述特征參數(shù)流數(shù)據(jù)訓(xùn)練通用背景模型;
將所有所述語音信號根據(jù)最大后驗準(zhǔn)則將其自適應(yīng)到說話人模型上,并通過構(gòu)建特征音空間的方法對表征特定所述說話人模型的參數(shù)進(jìn)行降維處理;
通過稀疏數(shù)據(jù)的em算法最大化所有訓(xùn)練數(shù)據(jù)中的整體似然度,針對所有說話人的語音信號求統(tǒng)計量,構(gòu)建特征說話人矩陣Vk。
5.如權(quán)利要求2所述的方法,其特征在于,建立用戶聲紋模型包括:
接受用戶的訓(xùn)練語音;
根據(jù)所述訓(xùn)練語音建立用戶聲紋模型;
接受用戶的測試語音;
對所述測試語音進(jìn)行測試歸一化和零歸一化分?jǐn)?shù)規(guī)整,放大用戶和其他人的分?jǐn)?shù)區(qū)別,以此設(shè)定門限值。
6.如權(quán)利要求5所述的方法,其特征在于,根據(jù)所述訓(xùn)練語音建立用戶聲紋模型包括:
對所述訓(xùn)練語音對應(yīng)的聲紋模型進(jìn)行訓(xùn)練和識別,通過最大似然法訓(xùn)練模型對信道因子向量xi、依賴于用戶的聲紋因子向量ys(i)、依賴于用戶和單個高斯模型的殘差因子向量zks(i)進(jìn)行最大后驗概率估計,其中,ys(i)用以表征用戶的特征向量,xi和zks(i)用以補償信道易變性和會話易變性的干擾;
建立用戶聲紋模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧波高新區(qū)錦眾信息科技有限公司,未經(jīng)寧波高新區(qū)錦眾信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711227504.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





