[發(fā)明專利]語音識別方法及裝置有效
| 申請?zhí)枺?/td> | 201710198565.9 | 申請日: | 2017-03-29 |
| 公開(公告)號: | CN106991999B | 公開(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計)人: | 萬韶華 | 申請(專利權(quán))人: | 北京小米移動軟件有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L25/30 |
| 代理公司: | 北京尚倫律師事務(wù)所 11477 | 代理人: | 代治國 |
| 地址: | 100085 北京市海淀區(qū)清河*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 | ||
本公開是關(guān)于一種語音識別方法及裝置。該方法包括獲取語音識別模型中待輸入深度神經(jīng)網(wǎng)絡(luò)DNN第i層網(wǎng)絡(luò)的M個語音數(shù)據(jù),每個語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;對M個語音數(shù)據(jù)包括的M個語音強度進(jìn)行正則化處理,獲取M個正則語音數(shù)據(jù),每個正則語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和正則語音強度;根據(jù)M個正則語音數(shù)據(jù),獲取輸入DNN第i層網(wǎng)絡(luò)的M個輸入語音數(shù)據(jù)。該技術(shù)方案中,通過對待輸入DNN網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進(jìn)行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了DNN網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進(jìn)而提高了語音識別的準(zhǔn)確率。
技術(shù)領(lǐng)域
本公開涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別方法及裝置。
背景技術(shù)
隨著科技的發(fā)展,越來越多的智能設(shè)備進(jìn)入了我們的生活,其中絕大多數(shù)智能設(shè)備實現(xiàn)了語音操控,極大的便利了我們的生活。
為了精確實現(xiàn)語音操控,需要為智能設(shè)備設(shè)置語音識別系統(tǒng),一個完整的語音識別系統(tǒng),包含了聲學(xué)模型(Acoustic Model)和HMM(Hidden Markov Model,隱形馬爾科夫模型)這兩個關(guān)鍵模塊,傳統(tǒng)的語音識別技術(shù)中,通常采用GMM(Gaussian Mixture Model,高斯混合模型)-HMM框架來實現(xiàn)上述兩個模塊,但是由于GMM模擬任意函數(shù)的能力取決于混合高斯函數(shù)的模(mode)的個數(shù),具有一定的局限性,屬于淺層模型,因此相關(guān)技術(shù)中還可以采用DNN(Deep Neural Networks,深度神經(jīng)網(wǎng)絡(luò))建立聲學(xué)模型和隱形馬爾科夫模型,通過DNN對聲學(xué)模型進(jìn)行建模,能取得比GMM更好的建模效果,語音識別的準(zhǔn)確率也更高。
發(fā)明內(nèi)容
為克服相關(guān)技術(shù)中存在的問題,本公開實施例提供一種語音識別方法及裝置。所述技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種語音識別方法,包括:
獲取語音識別模型中待輸入DNN第i層網(wǎng)絡(luò)的M個語音數(shù)據(jù),每個所述語音數(shù)據(jù)包括語音的持續(xù)時間、語音頻率和語音強度;所述i為大于或等于1的整數(shù);
對所述M個語音數(shù)據(jù)包括的M個語音強度進(jìn)行正則化處理,獲取M個正則語音數(shù)據(jù),每個所述正則語音數(shù)據(jù)包括語音的所述持續(xù)時間,所述語音頻率和正則語音強度,所述M為大于或等于1的整數(shù);
根據(jù)所述M個正則語音數(shù)據(jù),獲取輸入所述DNN第i層網(wǎng)絡(luò)的M個輸入語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過對待輸入DNN網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的語音數(shù)據(jù)進(jìn)行正則化處理,并根據(jù)正則化后的語音數(shù)據(jù)獲取第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了DNN網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進(jìn)而提高了語音識別的準(zhǔn)確率。
在一個實施例中,所述根據(jù)所述M個正則語音數(shù)據(jù),獲取輸入所述DNN第i層網(wǎng)絡(luò)的M個輸入語音數(shù)據(jù)包括:
將所述M個正則語音數(shù)據(jù)作為輸入所述DNN第i層網(wǎng)絡(luò)的所述M個輸入語音數(shù)據(jù)。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過將正則化后的輸入語音數(shù)據(jù)作為輸入DNN網(wǎng)絡(luò)中第i層網(wǎng)絡(luò)的輸入語音數(shù)據(jù),提高了DNN網(wǎng)絡(luò)的訓(xùn)練速度,降低了輸入的語音數(shù)據(jù)中聲音強度對語音識別的影響,進(jìn)而提高了語音識別的準(zhǔn)確率。
在一個實施例中,所述對所述M個語音數(shù)據(jù)包括的M個語音強度進(jìn)行正則化處理,獲取M個正則語音數(shù)據(jù)包括:
將所述M個語音數(shù)據(jù)按照預(yù)設(shè)規(guī)則分成N組語音數(shù)據(jù);
對所述N組語音數(shù)據(jù)中每組語音數(shù)據(jù)分別進(jìn)行正則化處理,獲取N組正則語音數(shù)據(jù),所述N組正則語音數(shù)據(jù)共包括M個正則語音數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米移動軟件有限公司,未經(jīng)北京小米移動軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710198565.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





