[發明專利]構建聲學模型的方法、語音識別系統和語音識別方法有效
| 申請號: | 202011536618.1 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112669824B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 薛少飛 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/02 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 聲學 模型 方法 語音 識別 系統 | ||
1.一種構建聲學模型的方法,包括:
預先訓練門控殘差DFSMN神經網絡模塊;
順序連接多個所述門控殘差DFSMN神經網絡模塊;
為順序連接的多個所述門控殘差DFSMN神經網絡模塊配置輸入層和輸出層構成所述聲學模型。
2.根據權利要求1所述的方法,其特征在于,所述輸入層與所述多個門控殘差DFSMN神經網絡模塊之間配置有第一深度神經網絡層;所述輸出層與所述多個門控殘差DFSMN神經網絡模塊之間配置有第二深度神經網絡層。
3.根據權利要求2所述的方法,其特征在于,所述預先訓練門控殘差DFSMN神經網絡模塊包括:
順序連接多個DFSMN神經網絡層以構成所述門控殘差DFSMN神經網絡模塊;
在所述門控殘差DFSMN神經網絡模塊的輸入端和輸出端之間設置由所述門控殘差DFSMN神經網絡模塊的輸出控制的第一門控;
在所述門控殘差DFSMN神經網絡模塊的輸入端和輸出端之間設置由所述門控殘差DFSMN神經網絡模塊的輸入控制的第二門控;
根據所述門控殘差DFSMN神經網絡模塊的輸入和輸出以及所述第一門控和所述第二門控的輸出確定輸入音頻特征的音素信息。
4.根據權利要求3所述的方法,其特征在于,所述門控殘差DFSMN神經網絡模塊的輸入端和所述第一門控之間設置有輸出控制網絡;所述門控殘差DFSMN神經網絡模塊的輸入端和所述第二門控之間設置有輸入控制網絡。
5.根據權利要求4所述的方法,其特征在于,還包括:對所述音素信息進行歸一化處理。
6.根據權利要求5所述的方法,其特征在于,所述音素信息由以下公式確定:
gint=σ(WinFint(xt))
goutt=σ(WoutFoutt(xt))
其中,xt是門控殘差DFSMN神經網絡模塊的輸入,goutt是第一門控,gint是第二門控;Fint是輸入控制網絡中的DFSMN神經網絡層,Foutt是輸出控制網絡中的DFSMN神經網絡層;FDt代表門控殘差DFSMN神經網絡模塊中核心的多層DFSMN操作,σ代表sigmoid函數,mt是經過歸一化處理之前的音素信息。
7.一種語音識別系統,包括:
特征提取網絡,用于從音頻信號中提取聲學特征;
根據權利要求1-6中任一項所述方法所構建的聲學模型,用于將所述聲學特征轉換為相應的音素信息;
字典,用于將所述音素信息轉換為相應的文本信息;
語言模型,用于確定對應于所述文本信息的文本內容。
8.一種語音識別方法,包括:采用權利要求7所述的語音識別系統將待識別音頻信號識別為相應的文本內容。
9.一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求1-6中任意一項所述方法的步驟。
10.一種存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-6中任意一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011536618.1/1.html,轉載請聲明來源鉆瓜專利網。





