[發(fā)明專利]一種聲學(xué)模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010159178.6 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111383628B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 王靖淞;涂威威 | 申請(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L15/14;G10L25/30 |
| 代理公司: | 北京開陽星知識產(chǎn)權(quán)代理有限公司 11710 | 代理人: | 郭鑫 |
| 地址: | 100085 北京市海淀區(qū)上*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 聲學(xué) 模型 訓(xùn)練 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開實(shí)施例涉及一種聲學(xué)模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。聲學(xué)模型由神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得到。神經(jīng)網(wǎng)絡(luò)模型包括用于時(shí)序處理的多層第一神經(jīng)網(wǎng)絡(luò)和用于輸出狀態(tài)的第二神經(jīng)網(wǎng)絡(luò)。方法包括:獲取語音數(shù)據(jù);提取語音數(shù)據(jù)的特征得到多幀特征數(shù)據(jù);基于多幀特征數(shù)據(jù)確定訓(xùn)練樣本數(shù)據(jù);基于訓(xùn)練樣本數(shù)據(jù)訓(xùn)練多層第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò),得到聲學(xué)模型;其中,至少一層第一神經(jīng)網(wǎng)絡(luò)的輸出為帶有權(quán)重的輸出,權(quán)重為信道注意力,所述信道為每幀特征數(shù)據(jù)的維度。本公開實(shí)施例增加信道建模,在多層第一神經(jīng)網(wǎng)絡(luò)對時(shí)序特征提取的同時(shí),至少一層第一神經(jīng)網(wǎng)絡(luò)的輸出為帶有信道注意力的輸出,通過對每個(gè)信道的信息進(jìn)行整合,增加聲學(xué)模型整體效果。
技術(shù)領(lǐng)域
本公開實(shí)施例涉及語音識別技術(shù)領(lǐng)域,具體涉及一種聲學(xué)模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
語音識別技術(shù)是機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。現(xiàn)有的語音識別模型由聲學(xué)模型和語言模型合并得到,其中聲學(xué)模型通過神經(jīng)網(wǎng)絡(luò)模型對語音信號進(jìn)行特征提取并訓(xùn)練得到,訓(xùn)練方式例如為端到端的訓(xùn)練方式或HMM-DMM?hybrid的訓(xùn)練方式等。現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型包含對時(shí)序特征建模的模型結(jié)構(gòu),比如tdnn,lstm等。本申請發(fā)明人發(fā)現(xiàn):對于語音數(shù)據(jù)和語音特征,尤其在神經(jīng)網(wǎng)絡(luò)模型的底層,數(shù)據(jù)序列中的每一個(gè)向量中,各個(gè)維度代表著信號處理中的各個(gè)信道。在進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)以及訓(xùn)練的過程中,并沒有針對各個(gè)信道做建模。
上述對問題的發(fā)現(xiàn)過程的描述,僅用于輔助理解本公開的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的至少一個(gè)問題,本公開的至少一個(gè)實(shí)施例提供了一種聲學(xué)模型的訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。
第一方面,本公開實(shí)施例提出一種聲學(xué)模型的訓(xùn)練方法,所述聲學(xué)模型由神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得到,所述神經(jīng)網(wǎng)絡(luò)模型包括用于時(shí)序處理的多層第一神經(jīng)網(wǎng)絡(luò)和用于輸出狀態(tài)的第二神經(jīng)網(wǎng)絡(luò),所述方法包括:
獲取語音數(shù)據(jù);
提取所述語音數(shù)據(jù)的特征,得到多幀特征數(shù)據(jù),其中,每幀特征數(shù)據(jù)包括多維度;
基于所述多幀特征數(shù)據(jù)確定訓(xùn)練樣本數(shù)據(jù);
基于所述訓(xùn)練樣本數(shù)據(jù)訓(xùn)練所述多層第一神經(jīng)網(wǎng)絡(luò)和所述第二神經(jīng)網(wǎng)絡(luò),得到聲學(xué)模型;
其中,至少一層所述第一神經(jīng)網(wǎng)絡(luò)的輸出為帶有權(quán)重的輸出,所述權(quán)重為信道注意力,所述信道為每幀特征數(shù)據(jù)的維度。
第二方面,本公開實(shí)施例提供一種聲學(xué)模型的訓(xùn)練裝置,所述聲學(xué)模型由神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得到,所述神經(jīng)網(wǎng)絡(luò)模型包括用于時(shí)序處理的多層第一神經(jīng)網(wǎng)絡(luò)和用于輸出狀態(tài)的第二神經(jīng)網(wǎng)絡(luò),所述裝置包括:
獲取模塊,用于獲取語音數(shù)據(jù);
提取模塊,用于提取所述語音數(shù)據(jù)的特征,得到多幀特征數(shù)據(jù),其中,每幀特征數(shù)據(jù)包括多維度;
確定模塊,用于基于所述多幀特征數(shù)據(jù)確定訓(xùn)練樣本數(shù)據(jù);
訓(xùn)練模塊,用于基于所述訓(xùn)練樣本數(shù)據(jù)訓(xùn)練所述多層第一神經(jīng)網(wǎng)絡(luò)和所述第二神經(jīng)網(wǎng)絡(luò),得到聲學(xué)模型;
其中,至少一層所述第一神經(jīng)網(wǎng)絡(luò)的輸出為帶有權(quán)重的輸出,所述權(quán)重為信道注意力,所述信道為每幀特征數(shù)據(jù)的維度。
第三方面,本公開實(shí)施例提出一種電子設(shè)備,包括:處理器和存儲器;所述處理器通過調(diào)用所述存儲器存儲的程序或指令,用于執(zhí)行如第一方面所述聲學(xué)模型的訓(xùn)練方法的步驟。
第四方面,本公開實(shí)施例提出一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),用于存儲程序或指令,所述程序或指令使計(jì)算機(jī)執(zhí)行如第一方面所述聲學(xué)模型的訓(xùn)練方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010159178.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于語音識別的聲學(xué)模型訓(xùn)練方法及裝置
- 具有集成聲學(xué)發(fā)生器的聲學(xué)發(fā)射傳感器
- 聲學(xué)發(fā)射傳感器裝置
- 一種基于空間折疊聲學(xué)超材料的單傳感器聲學(xué)相機(jī)
- 聲學(xué)環(huán)境中的聲學(xué)信號的基于上下文的消除和放大
- 聲學(xué)結(jié)構(gòu)和聲學(xué)系統(tǒng)
- 具有外放和私密操作模式的可穿戴個(gè)人聲學(xué)設(shè)備
- 聲換能器系統(tǒng)
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種基于聲學(xué)暗室的聲學(xué)相位中心校準(zhǔn)方法及系統(tǒng)





