[發(fā)明專利]一種基于聲紋模型訓(xùn)練的機器人語音識別控制方法在審

申請?zhí)枺?/td>	201711227504.7	申請日：	2017-11-29
公開（公告）號：	CN107705792A	公開（公告）日：	2018-02-16
發(fā)明（設(shè)計）人：	王國亮	申請（專利權(quán)）人：	寧波高新區(qū)錦眾信息科技有限公司
主分類號：	G10L17/00	分類號：	G10L17/00;G10L17/02;G10L17/04;G10L17/14;G10L15/02;G10L15/06;G10L15/08;G10L25/24
代理公司：	上海申新律師事務(wù)所31272	代理人：	俞滌炯
地址：	315040 浙江省寧***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于聲紋模型訓(xùn)練機器人語音識別控制方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于聲紋模型訓(xùn)練的機器人語音識別控制方法，其特征在于，所述方法包括：

接收用戶的語音數(shù)據(jù)；

判斷機器人當(dāng)前語音識別模式為特定人語音識別模式或非特定人語音識別模式；

當(dāng)判斷機器人當(dāng)前語音識別模式為特定人語音識別模式時，對所述語音數(shù)據(jù)進(jìn)行聲紋認(rèn)證和語音識別；

當(dāng)判斷機器人當(dāng)前語音識別模式為非特定人語音識別模式時，對所述語音數(shù)據(jù)進(jìn)行語音識別。

2.如權(quán)利要求1所述的方法，其特征在于，接收用戶的語音數(shù)據(jù)之前，需要建立背景模型庫和用戶聲紋模型，還包括：

采用聯(lián)合因子分析模型構(gòu)建說話人空間、信道空間和殘差空間三個子空間；所述聯(lián)合因子分析模型的高斯均值向量表征為：

M_ki＝m_k+U_kx_i+V_ky_s(i)+D_kz_ks(i)

其中，k代表第k個高斯模型，i代表某一個語音段，s_(i)表示說話人s的某一語音段，m_k表示獨立于說話人和會話內(nèi)容的均值向量，U_k表示特征信道矩陣，V_k表示特征說話人矩陣，D_k表示殘差空間矩陣；x_i表示信道因子向量，y_s(i)表示依賴于說話人的聲紋因子向量，z_ks(i)表示依賴于說話人和單個高斯模型的殘差因子向量。

3.如權(quán)利要求2所述的方法，其特征在于，建立背景模型庫包括：

采集語音信號作為訓(xùn)練數(shù)據(jù)；

對采集的所述語音信號進(jìn)行平衡性分析和處理，保持語音的長度相似，保證信道易變性和會話易變性的平衡；

對處理后的所述語音信號進(jìn)行前端預(yù)處理；

針對所述語音信號中某個固定說話人的語音信號求統(tǒng)計量，構(gòu)建特征信道矩陣U_k；

構(gòu)建殘差空間矩陣D_k，完善用于聲紋識別的背景模型庫。

4.如權(quán)利要求3所述的方法，其特征在于，對處理后的語音信號進(jìn)行前端預(yù)處理包括：

將所述語音信號分段加窗并計算得到梅爾頻率倒譜系數(shù)的特征參數(shù)流數(shù)據(jù)；

通過所述特征參數(shù)流數(shù)據(jù)訓(xùn)練通用背景模型；

將所有所述語音信號根據(jù)最大后驗準(zhǔn)則將其自適應(yīng)到說話人模型上，并通過構(gòu)建特征音空間的方法對表征特定所述說話人模型的參數(shù)進(jìn)行降維處理；

通過稀疏數(shù)據(jù)的em算法最大化所有訓(xùn)練數(shù)據(jù)中的整體似然度，針對所有說話人的語音信號求統(tǒng)計量，構(gòu)建特征說話人矩陣V_k。

5.如權(quán)利要求2所述的方法，其特征在于，建立用戶聲紋模型包括：

接受用戶的訓(xùn)練語音；

根據(jù)所述訓(xùn)練語音建立用戶聲紋模型；

接受用戶的測試語音；

對所述測試語音進(jìn)行測試歸一化和零歸一化分?jǐn)?shù)規(guī)整，放大用戶和其他人的分?jǐn)?shù)區(qū)別，以此設(shè)定門限值。

6.如權(quán)利要求5所述的方法，其特征在于，根據(jù)所述訓(xùn)練語音建立用戶聲紋模型包括：

對所述訓(xùn)練語音對應(yīng)的聲紋模型進(jìn)行訓(xùn)練和識別，通過最大似然法訓(xùn)練模型對信道因子向量x_i、依賴于用戶的聲紋因子向量y_s(i)、依賴于用戶和單個高斯模型的殘差因子向量z_ks(i)進(jìn)行最大后驗概率估計，其中，y_s(i)用以表征用戶的特征向量，x_i和z_ks(i)用以補償信道易變性和會話易變性的干擾；

建立用戶聲紋模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧波高新區(qū)錦眾信息科技有限公司，未經(jīng)寧波高新區(qū)錦眾信息科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711227504.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種透明光伏組件結(jié)構(gòu)
下一篇：一種電池片串聯(lián)組件

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認(rèn)或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

滑坡模型實驗?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】