[發明專利]語音識別的方法、語音識別模型的訓練方法、裝置及設備在審
| 申請號: | 202110468382.0 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113160820A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 趙情恩 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/02;G10L15/06;G10L15/16 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 曹遠;閻敏 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 模型 訓練 裝置 設備 | ||
本公開提供了語音識別的方法、語音識別模型的訓練方法、裝置、設備以及存儲介質,涉及人工智能、語音技術、深度學習等領域。具體實現方案為:確定待識別語音信息的特征,待識別語音信息的特征用于表征待識別語音信息中各音素之間的關系;利用待識別語音信息的特征,確定各音素對應的候選文字;利用候選文字的特征以及待識別語音信息的特征,生成與待識別語音信息對應的目標文本信息,候選文字的特征用于表征任一候選文字與該候選文字前向的其他候選文字之間的關系。本公開可以提高語音信息識別的準確性。
技術領域
本公開涉及計算機技術領域,尤其涉及人工智能、語音技術、深度學習等領域,具體涉及一種語音識別的方法、語音識別模型的訓練方法、裝置、設備以及存儲介質。
背景技術
通常的語音識別模型的訓練流程包括2個步驟,一個是收集文本語料,訓練語言模型。另外一個是收集語音數據,進行標注后,訓練聲學模型。上述過程中,需要分別訓練模型,訓練周期比較長,成本比較高。在實際進行語音識別的過程中,由于模型的差異,會導致識別結果的精準程度受到影響。
發明內容
本公開提供了一種語音識別的方法、語音識別模型的訓練方法、裝置、設備以及存儲介質。
根據本公開的一方面,提供了一種語音識別的方法,該方法可以包括以下步驟:
確定待識別語音信息的特征,待識別語音信息的特征用于表征待識別語音信息中各音素之間的關系;
利用待識別語音信息的特征,確定各音素對應的候選文字;
利用候選文字的特征以及待識別語音信息的特征,生成與待識別語音信息對應的目標文本信息,候選文字的特征用于表征任一候選文字與該候選文字前向的其他候選文字之間的關系。
根據本公開的第二方面,提供了一種語音識別模型的訓練方法,該方法可以包括以下步驟:
利用待訓練的第一網絡,分別提取語音信息樣本的特征和文字信息樣本的特征;語音信息樣本的特征用于表征語音信息樣本中各音素之間的關系,文字信息樣本的特征用于表征文字信息樣本中各文字之間的關系;
利用待訓練的第二網絡,根據語音信息樣本的特征以及文字信息樣本的特征,得到預測文本;
利用預測文本和文字信息樣本的差異,對第一網絡的參數和第二網絡的參數進行聯動調整,直至預測文本和文字信息樣本的差異在允許范圍內。
根據本公開的第三方面,提供了一種語音識別的裝置,該裝置可以包括:
待識別語音信息的特征提取模塊,用于確定待識別語音信息的特征,待識別語音信息的特征用于表征待識別語音信息中各音素之間的關系;
候選文字確定模塊,用于利用待識別語音信息的特征,確定各音素對應的候選文字;
目標文本信息確定模塊,用于利用候選文字的特征以及待識別語音信息的特征,生成與待識別語音信息對應的目標文本信息,候選文字的特征用于表征任一候選文字與該候選文字前向的其他候選文字之間的關系。
根據本公開的第四方面,提供了一種語音識別模型的訓練裝置,該裝置可以包括:
特征提取模塊,用于利用待訓練的第一網絡,分別提取語音信息樣本的特征和文字信息樣本的特征;語音信息樣本的特征用于表征語音信息樣本中各音素之間的關系,文字信息樣本的特征用于表征文字信息樣本中各文字之間的關系;
預測文本確定模塊,用于利用待訓練的第二網絡,根據語音信息樣本的特征以及文字信息樣本的特征,得到預測文本;
訓練模塊,用于利用預測文本和文字信息樣本的差異,對第一網絡的參數和第二網絡的參數進行聯動調整,直至預測文本和文字信息樣本的差異在允許范圍內。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110468382.0/2.html,轉載請聲明來源鉆瓜專利網。





