[發明專利]語音識別方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202210587567.8 | 申請日: | 2022-05-25 |
| 公開(公告)號: | CN114822509A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 丁超越;宗道明;李家魁;李寶祥 | 申請(專利權)人: | 上海商湯智能科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L15/14;G10L15/16;G10L15/26;G10L25/24 |
| 代理公司: | 北京中知恒瑞知識產權代理事務所(普通合伙) 11889 | 代理人: | 袁忠林 |
| 地址: | 200233 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本公開提供了一種語音識別方法、裝置、計算機設備及存儲介質,其中,該方法包括:獲取待識別的目標音頻數據,并對所述目標音頻數據進行音頻特征提取,得到所述目標音頻數據對應的音頻提取特征;將所述音頻提取特征輸入至預先訓練好的目標編碼器中,得到所述目標編碼器輸出的與所述目標音頻數據對應的音頻編碼特征;其中,所述目標編碼器包含自注意力網絡,所述自注意力網絡在確定目標查詢矩陣時采用池化處理操作;所述目標查詢矩陣為所述自注意力網絡在基于自注意力機制進行特征提取時確定的多個特征表示矩陣中的一個;基于所述音頻編碼特征,確定所述目標音頻數據對應的語音識別結果。
技術領域
本公開涉及語音識別技術領域,具體而言,涉及一種語音識別方法、裝置、計算機設備及存儲介質。
背景技術
語音喚醒在智能語音交互的應用中占據重要的一環,語音喚醒算法在智能車艙、智能家居以及智能機器人等應用場景中均具有較大的應用價值。
相關應用場景中,用于語音喚醒的待識別的音頻數據通常需要在智能音響或移動電話等終端設備上進行本地處理,需要較小的模型參數和較快的處理速度,但為了確保識別結果的準確性,因此相關技術中所使用的模型往往需要消耗較多的計算資源,從而影響了終端設備的語音喚醒效率。
發明內容
本公開實施例至少提供一種語音識別方法、裝置、計算機設備及存儲介質。
第一方面,本公開實施例提供了一種語音識別方法,包括:
獲取待識別的目標音頻數據,并對所述目標音頻數據進行音頻特征提取,得到所述目標音頻數據對應的音頻提取特征;
將所述音頻提取特征輸入至預先訓練好的目標編碼器中,得到所述目標編碼器輸出的與所述目標音頻數據對應的音頻編碼特征;其中,所述目標編碼器包含自注意力網絡,所述自注意力網絡在確定目標查詢矩陣時采用池化處理操作;所述目標查詢矩陣為所述自注意力網絡在基于自注意力機制進行特征提取時確定的多個特征表示矩陣中的一個;
基于所述音頻編碼特征,確定所述目標音頻數據對應的語音識別結果。
這樣,通過將待識別的目標音頻數據對應的音頻提取特征,輸入至包含基于池化處理操作得到的目標查詢矩陣的目標編碼器中,得到所述目標音頻數據對應的音頻編碼特征,從而可以基于所述音頻編碼特征確定所述目標音頻數據對應的語音識別結果。這樣,通過進行池化處理操作,可以使得生成的目標查詢矩陣的參數量更少,使得后續基于目標查詢矩陣得到的自注意力網絡的輸出的參數量更少,從而實現對自注意力網絡的輸出數據的壓縮,提高進行語音喚醒的效率。
一種可能的實施方式中,所述對所述目標音頻數據進行音頻特征提取,得到所述目標音頻數據對應的音頻提取特征,包括:
對所述目標音頻數據進行初始特征提取,確定所述目標音頻數據對應的梅爾頻率倒譜系數特征;
對所述梅爾頻率倒譜系數特征進行特征維度轉換處理,得到所述音頻提取特征;其中,所述音頻提取特征的維度高于所述梅爾頻率倒譜系數特征的維度。
一種可能的實施方式中,在確定所述目標音頻數據對應的梅爾頻率倒譜系數特征后,所述方法還包括:
對所述梅爾頻率倒譜系數特征進行特征增強處理,得到增強處理后的梅爾頻率倒譜系數特征;
所述對所述梅爾頻率倒譜系數特征進行特征維度轉換處理,得到所述音頻提取特征,包括:
基于目標卷積神經網絡對增強處理后的梅爾頻率倒譜系數特征進行特征維度轉換處理,得到所述目標音頻數據對應的音頻提取特征。
這樣,通過在進行特征維度轉換處理之前對梅爾頻率倒譜系數特征進行特征增強處理,可以增加進行特征維度轉換處理時的特征信息,從而能夠使提高在進行特征維度轉換處理時的特征提取效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海商湯智能科技有限公司,未經上海商湯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210587567.8/2.html,轉載請聲明來源鉆瓜專利網。





