[發(fā)明專(zhuān)利]語(yǔ)音識(shí)別模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110654093.X | 申請(qǐng)日: | 2021-06-11 |
| 公開(kāi)(公告)號(hào): | CN113327594B | 公開(kāi)(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 李作強(qiáng);楊嵩;林連志 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京世紀(jì)好未來(lái)教育科技有限公司 |
| 主分類(lèi)號(hào): | G10L15/06 | 分類(lèi)號(hào): | G10L15/06;G10L15/16 |
| 代理公司: | 北京開(kāi)陽(yáng)星知識(shí)產(chǎn)權(quán)代理有限公司 11710 | 代理人: | 張通 |
| 地址: | 100089 北京市海淀區(qū)中*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 識(shí)別 模型 訓(xùn)練 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)?zhí)峁┮环N語(yǔ)音識(shí)別模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),方法包括:采用Wavenet前向網(wǎng)絡(luò)和第一循環(huán)神經(jīng)網(wǎng)絡(luò)處理第一聲學(xué)特征矩陣得到第三聲學(xué)特征矩陣;采用第二循環(huán)神經(jīng)網(wǎng)絡(luò)處理第一文本特征矩陣得到第二文本特征矩陣;組合第三聲學(xué)特征矩陣和第二文本特征矩陣,得到組合矩陣;以及,采用聯(lián)合網(wǎng)絡(luò)處理組合矩陣得到輸出矩陣;根據(jù)樣本語(yǔ)音對(duì)應(yīng)的文本和輸出矩陣,對(duì)Wavenet前向網(wǎng)絡(luò)、第一循環(huán)神經(jīng)網(wǎng)絡(luò)、第二循環(huán)神經(jīng)網(wǎng)絡(luò)和聯(lián)合網(wǎng)絡(luò)進(jìn)行訓(xùn)練。本方案通過(guò)使用Wavenet前向網(wǎng)絡(luò)模塊提高了序列建模的感受視野,優(yōu)化了模型的訓(xùn)練速度和精度。
技術(shù)領(lǐng)域
本申請(qǐng)涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體涉及一種語(yǔ)音識(shí)別模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯、語(yǔ)音生成等方面的進(jìn)展,基于的語(yǔ)音識(shí)別也達(dá)到了和傳統(tǒng)方法可比的性能。不同于傳統(tǒng)方法將語(yǔ)音識(shí)別任務(wù)分解為多個(gè)子任務(wù)(詞匯模型,聲學(xué)模型和語(yǔ)言模型),的語(yǔ)音識(shí)別模型基于梅爾語(yǔ)譜作為輸入,能夠直接產(chǎn)生對(duì)應(yīng)的自然語(yǔ)言文本,大大簡(jiǎn)化了模型的訓(xùn)練過(guò)程,從而越來(lái)越受到學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。
目前,典型的基于的語(yǔ)音識(shí)別模型包括循環(huán)神經(jīng)網(wǎng)絡(luò)-變換器(Recurrent NeuralNetwork Transducer,RNN-T)模型,其將語(yǔ)言模型和聲學(xué)模型整合在一起進(jìn)行聯(lián)合優(yōu)化;經(jīng)過(guò)實(shí)踐檢驗(yàn),RNN-T模型雖然具有聯(lián)合優(yōu)化、具有語(yǔ)言模型建模能力和具有單調(diào)性的優(yōu)點(diǎn),但是這一模型比較難訓(xùn)練。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題或者至少部分地解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┮环N語(yǔ)音識(shí)別模型訓(xùn)練方法和裝置。
一方面,本申請(qǐng)?zhí)峁┮环N語(yǔ)音識(shí)別模型訓(xùn)練方法,包括:
獲取樣本語(yǔ)音中各個(gè)分幀的頻域特征向量,根據(jù)所述頻域特征向量得到第一聲學(xué)特征矩陣;
采用Wavenet前向網(wǎng)絡(luò)處理所述第一聲學(xué)特征矩陣,得到第二聲學(xué)特征矩陣;以及,采用第一循環(huán)神經(jīng)網(wǎng)絡(luò)處理所述第二聲學(xué)特征矩陣,得到第三聲學(xué)特征矩陣;
獲取所述樣本語(yǔ)音對(duì)應(yīng)文本中各個(gè)單詞的詞向量,根據(jù)所述詞向量得到第一文本特征矩陣;以及,采用第二循環(huán)神經(jīng)網(wǎng)絡(luò)處理所述第一文本特征矩陣,得到第二文本特征矩陣;
組合所述第三聲學(xué)特征矩陣和所述第二文本特征矩陣,得到組合矩陣;以及,采用聯(lián)合網(wǎng)絡(luò)處理所述組合矩陣得到輸出矩陣;
根據(jù)所述樣本語(yǔ)音對(duì)應(yīng)的文本和所述輸出矩陣,對(duì)所述語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練。
可選地,所述語(yǔ)音識(shí)別模型包括所述Wavenet前向網(wǎng)絡(luò)、所述第一循環(huán)神經(jīng)網(wǎng)絡(luò)、所述第二循環(huán)神經(jīng)網(wǎng)絡(luò)和所述聯(lián)合網(wǎng)絡(luò);
所述對(duì)所述語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,包括:對(duì)所述Wavenet前向網(wǎng)絡(luò)、所述第一循環(huán)神經(jīng)網(wǎng)絡(luò)、所述第二循環(huán)神經(jīng)網(wǎng)絡(luò)和所述聯(lián)合網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。
可選地,在采用Wavenet前向網(wǎng)絡(luò)處理所述第一聲學(xué)特征矩陣前,還包括:采用卷積運(yùn)算模塊處理所述第一聲學(xué)特征矩陣,得到第四聲學(xué)特征矩陣;
所述采用Wavenet前向網(wǎng)絡(luò)處理所述第一聲學(xué)特征矩陣,得到第二聲學(xué)特征矩陣,包括:采用所述Wavenet前向網(wǎng)絡(luò)處理所述第四聲學(xué)特征矩陣,得到所述第二聲學(xué)特征矩陣。
可選地,所述采用卷積運(yùn)算模塊處理所述第一聲學(xué)特征矩陣,得到第四聲學(xué)特征矩陣,包括:
采用深度可分離卷積模塊處理所述第一聲學(xué)特征矩陣,得到所述第四聲學(xué)特征矩陣。
可選地,所述第一循環(huán)神經(jīng)網(wǎng)絡(luò)和/或所述第二循環(huán)神經(jīng)網(wǎng)絡(luò)為具有動(dòng)態(tài)殘差連接的循環(huán)神經(jīng)網(wǎng)絡(luò)。
可選地,所述第一循環(huán)神經(jīng)網(wǎng)絡(luò)和/或所述第二循環(huán)神經(jīng)網(wǎng)絡(luò)為具有投影層的長(zhǎng)短期記憶網(wǎng)絡(luò)。
另一方面,本申請(qǐng)?zhí)峁┮环N語(yǔ)音識(shí)別模型訓(xùn)練裝置,包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京世紀(jì)好未來(lái)教育科技有限公司,未經(jīng)北京世紀(jì)好未來(lái)教育科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110654093.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)





