[發(fā)明專利]基于匹配模型二次識(shí)別的語音識(shí)別方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201710342320.9 | 申請(qǐng)日: | 2017-05-16 |
| 公開(公告)號(hào): | CN107146615A | 公開(公告)日: | 2017-09-08 |
| 發(fā)明(設(shè)計(jì))人: | 趙兆;何云亞;許志勇 | 申請(qǐng)(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L15/20;G10L15/14;G10L15/08;G10L15/06;G10L25/30;G10L17/26 |
| 代理公司: | 南京理工大學(xué)專利中心32203 | 代理人: | 吳茂杰 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 匹配 模型 二次 識(shí)別 語音 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于人機(jī)語音交互技術(shù)領(lǐng)域,特別是一種識(shí)別準(zhǔn)確度高、用戶體驗(yàn)好的基于匹配模型二次識(shí)別的語音識(shí)別方法及實(shí)現(xiàn)該方法的系統(tǒng)。
背景技術(shù)
語音識(shí)別是理想的人機(jī)交互中介工具,是推動(dòng)機(jī)器向更智能化發(fā)展的重要技術(shù)。能聽懂人講話,可以進(jìn)行思考和理解人的意圖,并最終對(duì)人作出語音或者行動(dòng)上的響應(yīng)的智能化機(jī)器一直是人工智能的終極目標(biāo)之一。
在大數(shù)據(jù)的背景下,機(jī)器學(xué)習(xí)逐漸滲透到智能家居、車載語音、身份識(shí)別等領(lǐng)域。基于大數(shù)據(jù)的深度學(xué)習(xí)研究方法對(duì)語音識(shí)別系統(tǒng)性能的提升有重要意義。早在幾年前就有國外學(xué)者提出了關(guān)于將深度學(xué)習(xí)研究方法運(yùn)用在語音識(shí)別上(Geoffrey Hinton,Li Deng,Dong Yu.Deep neural networks for acoustic modeling in speech recognition)。
但是通過調(diào)整模型結(jié)構(gòu)以及參數(shù)來提升語音識(shí)別系統(tǒng)準(zhǔn)確率的方法,在實(shí)際用戶語音噪聲背景不匹配時(shí)會(huì)導(dǎo)致語音識(shí)別準(zhǔn)確率急劇下降,嚴(yán)重影響人機(jī)交互體驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于匹配模型二次識(shí)別的語音識(shí)別方法,識(shí)別準(zhǔn)確度高、用戶體驗(yàn)好。
本發(fā)明的另一目的在于提供一種基于匹配模型二次識(shí)別的語音識(shí)別系統(tǒng),識(shí)別準(zhǔn)確度高、用戶體驗(yàn)好。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:
一種基于匹配模型二次識(shí)別的語音識(shí)別方法,包括如下步驟:
(10)語音處理:對(duì)用戶輸入的語音進(jìn)行預(yù)處理及特征提取;
(20)語音識(shí)別:識(shí)別解析用戶的語音信息,提取并保存用戶性別和環(huán)境噪聲信息;
(30)用戶評(píng)價(jià):接收用戶對(duì)第一次識(shí)別結(jié)果的反饋信息,如第一次識(shí)別結(jié)果不符合期望,則繼續(xù)進(jìn)行二次識(shí)別,發(fā)出二次識(shí)別請(qǐng)求;
(40)匹配模型識(shí)別:在二次識(shí)別請(qǐng)求下,根據(jù)用戶性別和環(huán)境噪聲情況,匹配一個(gè)最優(yōu)的語音識(shí)別模型,重新識(shí)別并輸出解析結(jié)果。。
實(shí)現(xiàn)本發(fā)明另一目的的技術(shù)解決方案為:
一種基于匹配模型二次識(shí)別的語音識(shí)別系統(tǒng),包括:
語音處理單元(1),用于對(duì)用戶輸入的語音進(jìn)行預(yù)處理及特征提??;
語音識(shí)別單元(2),用于識(shí)別解析用戶的語音信息,提取并保存用戶性別和環(huán)境噪聲信息;
用戶評(píng)價(jià)(3),用于接收用戶對(duì)第一次識(shí)別結(jié)果的反饋信息;
匹配模型識(shí)別單元(4),用于根據(jù)用戶性別和環(huán)境噪聲情況,匹配一個(gè)最優(yōu)的語音識(shí)別模型,重新識(shí)別并輸出解析結(jié)果。
本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)為:
1、識(shí)別準(zhǔn)確度高:本發(fā)明的方法基于機(jī)器學(xué)習(xí),利用針對(duì)不同用戶的輸入語音情況在對(duì)應(yīng)的訓(xùn)練集上建立與之匹配的聲學(xué)模型,很好的保證了識(shí)別系統(tǒng)的準(zhǔn)確率;
2、用戶體驗(yàn)好:本發(fā)明的方法重復(fù)利用了用戶輸入語音,避免了一旦識(shí)別出錯(cuò)只能二次輸入的情況,極大的提升了用戶體驗(yàn)。
下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。
附圖說明
圖1為本發(fā)明基于匹配模型二次識(shí)別的語音識(shí)別方法的主流程圖。
圖2是圖1中識(shí)別解析用戶的語音信息步驟的原理框圖。
圖3是圖1中用戶性別提取步驟的原理框圖。
圖4是圖1中環(huán)境噪聲提取步驟的流程圖。
具體實(shí)施方式
如圖1所示,本發(fā)明基于匹配模型二次識(shí)別的語音識(shí)別方法,包括如下步驟:
(10)語音處理:對(duì)用戶輸入的語音進(jìn)行預(yù)處理及特征提取;
現(xiàn)有技術(shù)中,常見的語音識(shí)別模型建模過程包括以下步驟:
(1)獲取足量已經(jīng)標(biāo)注好的訓(xùn)練數(shù)據(jù),提取每個(gè)訓(xùn)練樣本的梅爾域倒譜系數(shù)(MFCC)作為聲學(xué)特征;整理訓(xùn)練數(shù)據(jù)的標(biāo)注信息提取文本特征矢量
(2)將訓(xùn)練樣本的聲學(xué)特征向量輸入到由受限玻爾茲曼機(jī)器(RBM)堆疊構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)(DNN)中,采用GMM-HMM基線系統(tǒng)經(jīng)強(qiáng)制對(duì)齊得到神經(jīng)網(wǎng)絡(luò)的輸出層。將訓(xùn)練樣本的網(wǎng)絡(luò)輸出結(jié)果與實(shí)際標(biāo)注信息進(jìn)行對(duì)照得到輸出層的誤差信號(hào),利用誤差反向傳播(BP)算法來調(diào)整網(wǎng)絡(luò)參數(shù)。反復(fù)訓(xùn)練,調(diào)整參數(shù)得到最終的聲學(xué)模型。
(3)根據(jù)樣本文本特征矢量,分析得到統(tǒng)計(jì)意義上的語言環(huán)境中的詞序列概率。用三音素的N-gram分析方法訓(xùn)練語言模型,得到樣本空間的語言模型。
(4)運(yùn)用維特比解碼算法,把由訓(xùn)練樣本空間抽取得到的發(fā)音詞典,語音模型以及聲學(xué)模型連成一個(gè)網(wǎng)絡(luò),通過搜索網(wǎng)絡(luò)中的最優(yōu)路徑完成待解析的用戶輸入語音的解碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710342320.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





