[發明專利]語音識別方法、裝置、介質及電子設備有效
| 申請號: | 202110738271.7 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113327599B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 董林昊;馬澤君 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/26 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 曹寒梅 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 介質 電子設備 | ||
本公開涉及一種語音識別方法、裝置、介質及電子設備,所述方法包括:對接收到的語音數據進行編碼,獲得所述語音數據對應的聲學向量序列;根據所述聲學向量序列和第一預測模型,獲得所述語音數據對應的信息量序列和第一概率序列;根據所述聲學向量序列和第二預測模型,獲得第二概率序列;根據所述第一概率序列和所述第二概率序列,確定目標概率序列;根據所述目標概率序列,確定所述語音數據對應的目標文本。由此,可以基于訓練過程中的多任務學習對應的多個預測模型分別輸出的概率序列,確定用于語音識別的目標概率序列,可以基于訓練過程中進行多任務學習積累的知識進行語音識別和解碼,明顯提升語音識別的準確度和效率,提升用戶使用體驗。
技術領域
本公開涉及計算機技術領域,具體地,涉及一種語音識別方法、裝置、介質及電子設備。
背景技術
隨著深度學習的興起,各種完全依賴于神經網絡進行端到端建模的方法逐漸興起。在進行語音識別時,由于輸入的語音數據和輸出的文本數據的長度不同,可以通過對齊算法進行序列對齊映射的方式進行語音識別。相關技術中,為了提高模型對語音識別的準確度,通常會采用多任務學習的方式對模型進行訓練,然而在基于模型進行語音識別時,無法利用到訓練過程中多任務學習積累的知識,基于該模型進行語音識別難以達到預計的準確度。
發明內容
提供該發明內容部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該發明內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
第一方面,本公開提供一種語音識別方法,所述方法包括:
對接收到的語音數據進行編碼,獲得所述語音數據對應的聲學向量序列,其中,所述聲學向量序列包含所述語音數據的每一音頻幀的聲學向量;
根據所述聲學向量序列和第一預測模型,獲得所述語音數據對應的信息量序列和第一概率序列,其中,所述信息量序列包含每一所述音頻幀的信息量,所述第一概率序列包含所述語音數據對應的每一預測字符的第一文本概率分布;
根據所述聲學向量序列和第二預測模型,獲得第二概率序列,其中,所述第二概率序列中包含每一所述音頻幀的文本概率分布;
根據所述第一概率序列和所述第二概率序列,確定目標概率序列,其中,所述目標概率序列包含每一所述預測字符的目標文本概率分布;
根據所述目標概率序列,確定所述語音數據對應的目標文本。
可選地,所述根據所述聲學向量序列和第一預測模型,獲得所述語音數據對應的信息量序列和第一概率序列,包括:
將所述聲學向量序列輸入所述第一預測模型,獲得所述信息量序列;
根據所述信息量序列對所述聲學向量序列中所述音頻幀的聲學向量進行合并,獲得字符聲學向量序列,其中,所述字符聲學向量序列包含每一所述預測字符對應的聲學向量;
對所述字符聲學向量序列進行解碼,獲得所述第一概率序列。
可選地,所述根據所述聲學向量序列和第二預測模型,獲得第二概率序列,包括:
將所述聲學向量序列輸入所述第二預測模型,獲得每一所述音頻幀的預測概率分布;
針對每一所述音頻幀,將該音頻幀的預測概率分布中對應于預設字符的概率刪除,并對刪除后所得的預測概率分布進行歸一化,獲得該音頻幀的文本概率分布。
可選地,所述根據所述第一概率序列和所述第二概率序列,確定目標概率序列,包括:
根據所述信息量序列對所述第二概率序列中的所述音頻幀的文本概率分布進行合并,獲得第三概率序列,其中,第三概率序列包含每一所述預測字符的第二文本概率分布;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110738271.7/2.html,轉載請聲明來源鉆瓜專利網。





