[發明專利]語音識別方法、裝置、電子設備和存儲介質在審
| 申請號: | 202110943389.3 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113643694A | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 杜葉倩 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/18;G10L15/183;G10L15/26 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種語音識別方法,其特征在于,包括:
確定待識別的語音數據;
基于語音識別模型,對所述語音數據進行語音識別,將語音識別所得的語音語義特征轉換為文本語義特征,并基于所述文本語義特征生成語音識別文本;
其中,所述語音識別模型是基于預訓練語音模型和預訓練語言模型訓練得到的,所述語音語義特征屬于所述預訓練語音模型的特征空間,所述文本語義特征屬于所述預訓練語言模型的特征空間。
2.根據權利要求1所述的語音識別方法,其特征在于,所述將語音識別所得的語音語義特征轉換為文本語義特征,包括:
基于所述語音識別模型中的轉換模塊,對所述語音語義特征進行長度轉換和特征空間轉換,得到所述文本語義特征,所述文本語義特征的長度是對所述語音語義特征進行文本長度預測得到的。
3.根據權利要求2所述的語音識別方法,其特征在于,所述基于所述語音識別模型中的轉換模塊,對所述語音語義特征進行長度轉換,包括:
基于所述轉換模塊,按照采樣比例對所述語音語義特征進行均勻采樣,所述采樣比例是基于所述語音語義特征的長度和所述文本長度預測的結果確定的。
4.根據權利要求1所述的語音識別方法,其特征在于,所述基于所述文本語義特征生成語音識別文本,包括:
基于所述語音識別模型中的預訓練語言模型,對所述文本語義特征進行文本預測,得到文本預測特征,基于所述文本語義特征和所述文本預測特征生成所述語音識別文本。
5.根據權利要求1至4中任一項所述的語音識別方法,其特征在于,所述語音識別模型的模型損失函數是基于語音識別損失函數和長度預測損失函數確定的;
所述語音識別損失函數是基于樣本語音對應的樣本文本,以及所述樣本語音的文本語義特征確定的;
所述長度預測損失函數是基于所述樣本語音對應的樣本文本的長度和所述文本語義特征的長度確定的。
6.根據權利要求5所述的語音識別方法,其特征在于,所述模型損失函數是基于所述語音識別損失函數、所述文本生成損失函數和長度預測損失函數確定的;
所述文本生成損失函數是基于所述樣本語音對應的樣本文本和語音識別文本確定的。
7.根據權利要求6所述的語音識別方法,其特征在于,所述語音識別模型是基于如下步驟訓練得到的:
構建初始模型,所述初始模型包括所述預訓練語音模型和預訓練語言模型,以及連接所述預訓練語音模型和所述預訓練語言模型的初始轉換模塊;
基于所述語音識別損失函數和長度預測損失函數訓練所述初始轉換模塊,得到包含訓練后的初始轉換模塊的階段模型;
基于所述語音識別損失函數、所述文本生成損失函數和長度預測損失函數,訓練所述階段模型。得到所述語音識別模型。
8.一種語音識別裝置,其特征在于,包括:
語音數據確定單元,用于確定待識別的語音數據;
語音識別單元,用于基于語音識別模型,對所述語音數據進行語音識別,將語音識別所得的語音語義特征轉換為文本語義特征,并基于所述文本語義特征生成語音識別文本;
其中,所述語音識別模型是基于預訓練語音模型和預訓練語言模型訓練得到的,所述語音語義特征屬于所述預訓練語音模型的特征空間,所述文本語義特征屬于所述預訓練語言模型的特征空間。
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7任一項所述語音識別方法的步驟。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述語音識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110943389.3/1.html,轉載請聲明來源鉆瓜專利網。





