[發(fā)明專利]語音識別方法和裝置有效
| 申請?zhí)枺?/td> | 201610008069.8 | 申請日: | 2016-01-06 |
| 公開(公告)號: | CN105702250B | 公開(公告)日: | 2020-05-19 |
| 發(fā)明(設(shè)計)人: | 范思楠;齊昕;關(guān)胤;王維蘭;吳擁民;陳宏展;劉德建 | 申請(專利權(quán))人: | 福建天晴數(shù)碼有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14;G10L15/16;G10L25/24 |
| 代理公司: | 福州市景弘專利代理事務(wù)所(普通合伙) 35219 | 代理人: | 林祥翔;呂元輝 |
| 地址: | 350015 *** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 | ||
1.一種語音識別方法,其特征在于,包括如下步驟:
以預(yù)設(shè)采樣參數(shù)以及預(yù)設(shè)格式存儲兒童語音信息;
從存儲的兒童語音信息中提取每幀音頻的39維梅爾頻率倒譜系數(shù),并用混合高斯模型描述所述各幀音頻的39維梅爾頻率倒譜系數(shù);
訓(xùn)練各狀態(tài)的混合高斯模型并構(gòu)建各狀態(tài)的隱馬爾科夫模型,具體包括,訓(xùn)練各狀態(tài)的高斯混合模型,每一狀態(tài)由若干幀構(gòu)成,以各狀態(tài)為基礎(chǔ)構(gòu)建隱馬爾科夫模型,確定每個狀態(tài)之間的狀態(tài)轉(zhuǎn)移概率;
以gmm-hmm模型為基礎(chǔ)初始化一深度信念網(wǎng)絡(luò),提取每幀音頻及其前后若干幀音頻的梅爾頻率倒譜系數(shù)作為輸入信息以構(gòu)造相應(yīng)的高斯模型;
以經(jīng)訓(xùn)練的混合高斯模型-隱馬爾科夫模型對所述深度信念網(wǎng)絡(luò)進(jìn)行調(diào)整對齊,改變原gmm-hmm模型的狀態(tài)輸出概率,得到基于深度信念網(wǎng)絡(luò)的dnn-hmm模型;
利用所述基于深度信念網(wǎng)絡(luò)的dnn-hmm模型進(jìn)行語音識別。
2.如權(quán)利要求1所述的語音識別方法,其特征在于,步驟“以gmm-hmm模型為基礎(chǔ)初始化一深度信念網(wǎng)絡(luò)”具體包括:
訓(xùn)練所述輸入信息的第一層受限玻爾茲曼機;
以第一層受限玻爾茲曼機的訓(xùn)練輸出作為第二層受限玻爾茲曼機的輸入并訓(xùn)練第二層受限玻爾茲曼機,直至頂層受限玻爾茲曼機;
對頂層受限玻爾茲曼機,結(jié)合帶分類標(biāo)簽的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,并得到初始化的深度信念網(wǎng)絡(luò)
3.如權(quán)利要求2所述的語音識別方法,其特征在于,所述“每幀音頻及其前后若干幀音頻”具體包括:
每幀音頻及其前4幀和后4幀音頻;
每幀音頻及其前5幀和后5幀音頻;
每幀音頻及其前4幀和后5幀音頻;或
每幀音頻及其前5幀和后4幀音頻。
4.如權(quán)利要求2所述的語音識別方法,其特征在于,步驟“訓(xùn)練第二層受限玻爾茲曼機,直至頂層受限玻爾茲曼機”具體包括:
使用伯努利模型并給予對比散度的快速學(xué)習(xí)算法迭代多次訓(xùn)練直至第六層受限玻爾茲曼機。
5.如權(quán)利要求1或2所述的語音識別方法,其特征在于,所述“預(yù)設(shè)采樣參數(shù)以及預(yù)設(shè)格式”具體包括:
采樣率為8000、16000或22050Hz;
采樣位數(shù)為8位、16位或24位;
單聲道的wav格式或mp3格式。
6.如權(quán)利要求5所述的語音識別方法,其特征在于,所述“預(yù)設(shè)采樣參數(shù)以及預(yù)設(shè)格式”具體為:
采樣率為16000Hz、采樣位數(shù)為16位、單聲道的wav格式。
7.一種語音識別裝置,其特征在于,包括存儲單元、參數(shù)提取單元、第一建模單元、第二建模單元和識別單元;
所述存儲單元用于以預(yù)設(shè)采樣參數(shù)以及預(yù)設(shè)格式存儲兒童語音信息;
所述參數(shù)提取單元用于從存儲的兒童語音信息中提取每幀音頻的39維梅爾頻率倒譜系數(shù),并用混合高斯模型描述所述各幀音頻的39維梅爾頻率倒譜系數(shù);
所述第一建模單元用于訓(xùn)練各狀態(tài)的高斯混合模型,每一狀態(tài)由若干幀構(gòu)成;以各狀態(tài)為基礎(chǔ)構(gòu)建隱馬爾科夫模型,確定每個狀態(tài)之間的狀態(tài)轉(zhuǎn)移概率;
所述第二建模單元用于以gmm-hmm模型為基礎(chǔ)初始化一深度信念網(wǎng)絡(luò),并以經(jīng)第一建模單元訓(xùn)練和構(gòu)建的混合高斯模型-隱馬爾科夫模型對所述深度信念網(wǎng)絡(luò)進(jìn)行調(diào)整對齊,改變原gmm-hmm模型的狀態(tài)輸出概率,得到基于深度信念網(wǎng)絡(luò)的dnn-hmm模型;
所述識別單元用于利用所述基于深度信念網(wǎng)絡(luò)的dnn-hmm模型進(jìn)行語音識別。
8.如權(quán)利要求7所述的語音識別裝置,其特征在于,第二建模單元以gmm-hmm模型為基礎(chǔ)初始化一深度信念網(wǎng)絡(luò)具體包括:
提取每幀音頻及其前后若干幀音頻的梅爾頻率倒譜系數(shù)作為輸入信息以構(gòu)造相應(yīng)的高斯模型;
訓(xùn)練所述輸入信息的第一層受限玻爾茲曼機;
以第一層受限玻爾茲曼機的訓(xùn)練輸出作為第二層受限玻爾茲曼機的輸入并訓(xùn)練第二層受限玻爾茲曼機,直至頂層受限玻爾茲曼機;
對頂層受限玻爾茲曼機,結(jié)合帶分類標(biāo)簽的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,并得到初始化的深度信念網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建天晴數(shù)碼有限公司,未經(jīng)福建天晴數(shù)碼有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610008069.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:電阻式存儲器裝置和列解碼器
- 下一篇:一種可譜曲的音樂盒





