[發明專利]音頻識別方法、裝置、訓練方法、訓練裝置、設備及存儲介質有效
| 申請號: | 202110671831.1 | 申請日: | 2021-06-17 |
| 公開(公告)號: | CN113380233B | 公開(公告)日: | 2023-01-31 |
| 發明(設計)人: | 趙情恩 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/26;G10L25/03;G10L15/06 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王萌 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 方法 裝置 訓練 設備 存儲 介質 | ||
本公開提出了一種音頻識別方法及裝置、音頻識別模型的訓練方法及裝置、設備及存儲介質,該方法包括:獲取音頻數據,并將所述音頻數據進行分片得到至少兩幀子音頻數據;確定每幀子音頻數據對應的至少一個維度的特征信息;基于每幀所述子音頻數據對應的所述至少一個維度的特征信息確定出每幀所述子音頻數據的特征;基于每幀所述子音頻數據的特征確定出所述音頻數據的全局特征;基于所述音頻數據的全局特征對所述音頻數據進行識別。本公開的音頻識別方法綜合考慮了局部與整句全局的信息,提高了識別準確度。
技術領域
本公開涉及人工智能技術領域,具體為語音識別技術領域,尤其涉及一種音頻識別方法、裝置、訓練方法、訓練裝置、設備及存儲介質。
背景技術
隨著人工智能技術的發展,語音識別技術取得了巨大的進步,并開始進入家電、通信、汽車、醫療等各個領域。
相關技術中,會利用音頻識別模型來識別語音,其中,為了提高音頻識別模型的識別效果,通常會對音頻識別模型中的模塊進行優化,但是,相關技術中的優化手段對于提高音頻識別模型識別效果的顯著性較低。
發明內容
提供了一種音頻識別方法、裝置、訓練方法、訓練裝置、設備及存儲介質。
根據第一方面,提供了一種音頻識別的方法,所述方法包括:
獲取音頻數據,并將所述音頻數據進行分片得到至少兩幀子音頻數據;
確定每幀子音頻數據對應的至少一個維度的特征信息;
基于每幀所述子音頻數據對應的所述至少一個維度的特征信息確定出每幀所述子音頻數據的特征;
基于每幀所述子音頻數據的特征確定出所述音頻數據的全局特征;
基于所述音頻數據的全局特征對所述音頻數據進行識別。
根據第二方面,提供了一種音頻識別模型的訓練方法,所述方法包括:
獲取待訓練音頻數據,對所述待訓練音頻數據進行說話人標注得到標注結果;
將所述待訓練音頻數據輸入至音頻識別模型的分片層,以將所述待訓練音頻數據進行分片得到至少兩幀子音頻數據;
將每幀子音頻數據輸入至所述音頻識別模型的局部特征關注層,以確定每幀子音頻數據對應的至少一個維度的特征信息;
將每幀所述子音頻數據對應的所述至少一個維度的特征信息輸入至所述音頻識別模型的聚合層,以基于每幀所述子音頻數據對應的所述至少一個維度的特征信息確定出每幀所述子音頻數據的特征;
將每幀所述子音頻數據的特征輸入至所述音頻識別模型的全局特征關注層,以基于每幀所述子音頻數據的特征確定出所述待訓練音頻數據的全局特征;
將所述待訓練音頻數據的全局特征輸入至所述音頻識別模型的全連接層,以基于所述待訓練音頻數據的全局特征對所述待訓練音頻數據進行識別以得到識別結果;
基于所述標注結果和所述識別結果對所述音頻識別模型進行訓練。
根據第三方面,提供了一種音頻識別裝置,所述裝置包括:
分片模塊,用于獲取音頻數據,并將所述音頻數據進行分片得到至少兩幀子音頻數據;
局部特征關注模塊,用于確定所述子音頻數據對應的至少一個維度的特征信息;
聚合模塊,用于基于每幀所述子音頻數據對應的至少一個維度的特征信息確定出每幀所述子音頻數據的特征;
全局特征關注模塊,用于基于每幀所述子音頻數據的特征確定出所述音頻數據的全局特征;
全連接模塊,用于基于所述音頻數據的所述全局特征對所述音頻數據進行識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110671831.1/2.html,轉載請聲明來源鉆瓜專利網。





