[發(fā)明專利]語音識別模型確定方法、語音識別方法及裝置、電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010210590.6 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111402893A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計)人: | 李杰;王曉瑞;李巖 | 申請(專利權(quán))人: | 北京達佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L25/27;G10L25/30 |
| 代理公司: | 廣州華進聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 劉羚 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 模型 確定 方法 裝置 電子設(shè)備 | ||
本公開關(guān)于一種語音識別模型確定方法、語音識別方法及裝置、電子設(shè)備,涉及語音識別領(lǐng)域。所述語音識別模型確定方法包括:獲取樣本語音數(shù)據(jù);對樣本語音數(shù)據(jù)進行分幀,對分幀獲得的各幀樣本語音數(shù)據(jù)進行特征提取,獲得各幀樣本語音數(shù)據(jù)的語音特征;對各幀樣本語音數(shù)據(jù)的語音特征基于音節(jié)進行對齊,得到各幀樣本語音數(shù)據(jù)對應(yīng)的音節(jié)標(biāo)簽;采用待訓(xùn)練語音識別模型對各幀樣本語音數(shù)據(jù)的語音特征進行識別,獲得各幀樣本語音數(shù)據(jù)對應(yīng)的預(yù)測音節(jié)。采用本方法能夠提升語音識別的準(zhǔn)確性。
技術(shù)領(lǐng)域
本公開涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別模型確定方法、語音識別方法及裝置、電子設(shè)備。
背景技術(shù)
自動語音識別(Automatic Speech Recognition,ASR)是通過算法將人類的語音轉(zhuǎn)化成相應(yīng)文本的過程。目前的自動語音識別系統(tǒng)中,常用的語音識別模型建模方法有鏈?zhǔn)浇!⑦B接時序分類等,常用的建模單元是音素或者音素狀態(tài)。
相關(guān)技術(shù)中,語音識別模型采用音素作為建模單元,并且考慮上下文相關(guān)音素,然而,由于音素的持續(xù)時間短,受制于協(xié)同發(fā)音效應(yīng),難以對人類語音的長期時間依賴性進行建模,與人類語音感知的匹配度不夠高,導(dǎo)致語音識別的準(zhǔn)確性較低。
發(fā)明內(nèi)容
本公開提供一種語音識別模型確定方法、語音識別方法及裝置、電子設(shè)備,以至少解決相關(guān)技術(shù)中語音識別的準(zhǔn)確性較低的問題。本公開的技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種語音識別模型確定方法,包括:
獲取樣本語音數(shù)據(jù);
對所述樣本語音數(shù)據(jù)進行分幀,對分幀獲得的各幀樣本語音數(shù)據(jù)進行特征提取,獲得所述各幀樣本語音數(shù)據(jù)的語音特征;
對所述各幀樣本語音數(shù)據(jù)的語音特征基于音節(jié)進行對齊,得到所述各幀樣本語音數(shù)據(jù)對應(yīng)的音節(jié)標(biāo)簽;
采用待訓(xùn)練語音識別模型對所述各幀樣本語音數(shù)據(jù)的語音特征進行識別,獲得所述各幀樣本語音數(shù)據(jù)對應(yīng)的預(yù)測音節(jié);
根據(jù)所述各幀樣本語音數(shù)據(jù)對應(yīng)的預(yù)測音節(jié)和音節(jié)標(biāo)簽,訓(xùn)練所述待訓(xùn)練語音識別模型,得到訓(xùn)練好的語音識別模型。
可選的,所述對所述各幀樣本語音數(shù)據(jù)的語音特征基于音節(jié)進行對齊,得到所述各幀樣本語音數(shù)據(jù)對應(yīng)的音節(jié)標(biāo)簽,包括:采用隱馬爾可夫模型-混合高斯模型對所述各幀樣本語音數(shù)據(jù)的語音特征基于音節(jié)進行對齊,得到所述各幀樣本語音數(shù)據(jù)對應(yīng)的音節(jié)標(biāo)簽。
可選的,所述隱馬爾可夫模型-混合高斯模型的訓(xùn)練過程包括:
獲取樣本語音數(shù)據(jù)以及所述樣本語音數(shù)據(jù)對應(yīng)的音節(jié)序列;
對所述樣本語音數(shù)據(jù)進行特征提取,獲得所述樣本語音數(shù)據(jù)的語音特征;
采用待訓(xùn)練隱馬爾可夫模型-混合高斯模型對所述語音特征基于音節(jié)進行對齊,獲得所述語音特征對應(yīng)的音節(jié)數(shù)據(jù),根據(jù)所述語音特征對應(yīng)的音節(jié)數(shù)據(jù)以及所述音節(jié)序列,訓(xùn)練所述待訓(xùn)練隱馬爾可夫模型-混合高斯模型,得到訓(xùn)練好的隱馬爾可夫模型-混合高斯模型。
可選的,所述待訓(xùn)練語言識別模型的結(jié)構(gòu)包括時延神經(jīng)網(wǎng)絡(luò)-長短期記憶網(wǎng)絡(luò)層和歸一化層;所述采用待訓(xùn)練語音識別模型對所述各幀樣本語音數(shù)據(jù)的語音特征進行識別,獲得所述各幀樣本語音數(shù)據(jù)對應(yīng)的預(yù)測音節(jié),包括:
通過所述時延神經(jīng)網(wǎng)絡(luò)-長短期記憶網(wǎng)絡(luò)層,對所述各幀語音數(shù)據(jù)的語音特征進行特征抽取,獲得所述各幀語音數(shù)據(jù)的目標(biāo)特征;
通過所述歸一化層對各所述目標(biāo)特征進行識別,獲得所述各幀語音數(shù)據(jù)對應(yīng)的預(yù)測音節(jié)。
可選的,所述通過所述時延神經(jīng)網(wǎng)絡(luò)-長短期記憶網(wǎng)絡(luò)層,對所述各幀語音數(shù)據(jù)的語音特征進行特征抽取,獲得所述各幀語音數(shù)據(jù)的目標(biāo)特征,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010210590.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





