[發(fā)明專利]語音識別方法及裝置在審
| 申請?zhí)枺?/td> | 202011625075.0 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN114694636A | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計(jì))人: | 尹旭賢 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G06N3/04;G06N3/08 |
| 代理公司: | 北京格羅巴爾知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11406 | 代理人: | 孫德崇 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 | ||
1.一種語音識別方法,其特征在于,所述方法包括:
終端設(shè)備將待識別的音素輸入到第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型中,其中,所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型為采用訓(xùn)練樣本對第一多任務(wù)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到的,所述訓(xùn)練樣本包括:樣本語句,所述樣本語句中包括字符,所述訓(xùn)練樣本還包括:樣本語句中的字符對應(yīng)的音素、標(biāo)點(diǎn);
采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型輸出第一預(yù)測結(jié)果,所述第一預(yù)測結(jié)果包括所述待識別的音素對應(yīng)的字符預(yù)測結(jié)果和標(biāo)點(diǎn)預(yù)測結(jié)果;
終端設(shè)備根據(jù)所述第一預(yù)測結(jié)果將所述第一預(yù)測結(jié)果的至少一部分顯示在所述終端設(shè)備的顯示屏上。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本語句中字符的長度與音素的長度和標(biāo)點(diǎn)的長度相同。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型為流式網(wǎng)絡(luò)結(jié)構(gòu),
終端設(shè)備將待識別的音素輸入到第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型中,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型輸出第一預(yù)測結(jié)果,包括:所述終端設(shè)備將待識別的音素循環(huán)送入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型中,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型基于當(dāng)前輸入的待識別的音素的長度輸出所述第一預(yù)測結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述終端設(shè)備將待識別的音素循環(huán)送入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型中,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型基于當(dāng)前輸入的待識別的音素的長度輸出所述第一預(yù)測結(jié)果,包括:
在完成將全部待識別的音素輸入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型之前,如果當(dāng)前輸入的音素的長度小于感受野,則終端設(shè)備繼續(xù)輸入下一個(gè)音素;
在完成將全部待識別的音素輸入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型之前,如果當(dāng)前輸入的音素的長度不小于感受野,則終端設(shè)備根據(jù)當(dāng)前輸入的音素的字符和標(biāo)點(diǎn),得到當(dāng)前輸入的音素的第一個(gè)音素的第二預(yù)測結(jié)果,并存儲第二預(yù)測結(jié)果;終端設(shè)備將所述第一個(gè)音素的特征向量、當(dāng)前輸入的音素中除了第一個(gè)音素以外的音素和待識別的音素中的下一個(gè)音素繼續(xù)輸入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述終端設(shè)備將待識別的音素循環(huán)送入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型中,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型基于當(dāng)前輸入的待識別的音素的長度輸出所述第一預(yù)測結(jié)果,還包括:
在完成將全部待識別的音素輸入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型時(shí),終端設(shè)備根據(jù)當(dāng)前輸入的音素的字符和標(biāo)點(diǎn),得到當(dāng)前輸入的音素的第二預(yù)測結(jié)果;
若不存在已存儲的第二預(yù)測結(jié)果,則終端設(shè)備將當(dāng)前輸入的音素的第二預(yù)測結(jié)果作為待識別的音素的第一預(yù)測結(jié)果;
若存在已存儲的第二預(yù)測結(jié)果,則根據(jù)當(dāng)前輸入的音素的第二預(yù)測結(jié)果和已存儲的第二預(yù)測結(jié)果,得到待識別的音素的第一預(yù)測結(jié)果。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型為非流式網(wǎng)絡(luò)結(jié)構(gòu),
采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型輸出第一預(yù)測結(jié)果,包括:
采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型基于待識別的音素的總長度和音素長度閾值的關(guān)系,輸出所述第一預(yù)測結(jié)果。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型基于待識別的音素的總長度和音素長度閾值的關(guān)系,輸出所述第一預(yù)測結(jié)果,包括:
若待識別的音素的總長度小于音素長度閾值,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型根據(jù)全部的待識別的音素,輸出所述第一預(yù)測結(jié)果。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,采用所述第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型基于待識別的音素的總長度和音素長度閾值的關(guān)系,輸出所述第一預(yù)測結(jié)果,包括:
若待識別的音素的總長度不小于音素長度閾值,在完成將全部待識別的音素輸入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型之前:如果當(dāng)前輸入的音素的長度小于音素長度閾值,則終端設(shè)備繼續(xù)輸入下一個(gè)音素;如果當(dāng)前輸入的音素的長度不小于音素長度閾值,則終端設(shè)備根據(jù)當(dāng)前輸入的音素的字符和標(biāo)點(diǎn),得到當(dāng)前輸入的音素的第一個(gè)音素的第二預(yù)測結(jié)果并存儲第二預(yù)測結(jié)果,終端設(shè)備將當(dāng)前輸入的音素中除了第一個(gè)音素以外的音素和待識別的音素中的下一個(gè)音素繼續(xù)輸入第二多任務(wù)神經(jīng)網(wǎng)絡(luò)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011625075.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





