[發明專利]語音識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202010001662.6 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN111063342B | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 吳渤;于蒙;陳聯武;溫超;蘇丹;俞棟 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/26;G10L21/0208;G10L21/0272 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種語音識別方法,其特征在于,所述方法包括:
將采集到的音頻數據分割成多個長度相同的音頻幀,按照時間的先后順序將所述多個長度相同的音頻幀輸入到時域分離模型中;
由所述時域分離模型基于所述多個長度相同的音頻幀進行預測,得到多個第一分離信息,將多個第一分離信息按照時間順序進行組合,得到時域分離信息,所述時域分離信息用于分離所述音頻數據中的噪音數據和語音數據;
將所述時域分離信息與所述音頻數據相乘,得到時域語音數據;
將所述時域語音數據分割成多個目標長度的語音幀;
將任一所述語音幀和目標數量的關聯語音幀輸入到特征提取模型中,通過所述特征提取模型分別對所述語音幀和所述目標數量的關聯語音幀進行特征提取,并為所述目標數量的關聯語音幀和所述語音幀賦予不同的權重,所述目標數量的關聯語音幀為與所述語音幀時序相鄰的語音幀;
將特征提取后的多個語音幀的特征信息進行加權求和,得到所述語音幀的目標語音幀特征信息;
按照時間順序將所述多個目標長度的語音幀的多個目標語音特征信息進行組合,得到所述時域語音數據對應的時域語音特征信息;
對所述時域語音數據對應的時域語音特征信息進行語音識別,確定所述時域語音數據對應的語音內容。
2.根據權利要求1所述的方法,其特征在于,所述對所述時域語音數據對應的時域語音特征信息進行語音識別,得到所述時域語音數據對應的語音內容包括:
將所述時域語音特征信息輸入到時域語音識別模型中,由所述時域語音識別模型基于所述時域語音特征信息進行預測,得到所述時域語音特征信息與多個音素之間對應的概率;
將概率最大的音素確定為所述時域語音特征信息對應的音素;
基于多個音素,確定所述時域語音數據對應的語音內容。
3.根據權利要求2所述的方法,其特征在于,所述基于多個音素,確定所述時域語音數據對應的語音內容包括:
在所述多個音素之間插入分隔符,得到多個目標音素,任意兩個分隔符之間的音素對應于同一個目標音素;
基于所述多個目標音素,確定時域語音數據對應的語音內容。
4.根據權利要求3所述的方法,其特征在于,所述在所述多個音素之間插入分隔符,得到多個目標音素包括:
按照時間順序將所述多個音素進行組合;
基于分隔符插入模型,在組合后的多個音素之間插入分隔符,所述分隔符插入模型用于基于時間上相鄰的多個時域語音特征信息預測分隔符的插入位置;
將任意兩個分隔符之間的音素確定為同一個目標音素。
5.根據權利要求3所述的方法,其特征在于,所述基于所述多個目標音素,確定時域語音數據對應的語音內容包括:
基于所述多個目標音素,確定多個目標音節;
基于所述多個目標音節,確定所述時域語音數據對應的文本信息。
6.根據權利要求1所述的方法,其特征在于,所述對所述時域語音數據對應的時域語音特征信息進行語音識別,得到所述時域語音數據對應的語音內容包括:
將時間上相鄰的多個時域語音特征信息輸入到時域語音識別模型中,由所述時域語音識別模型基于所述多個時域語音特征信息進行預測,得到所述多個時域語音特征信息與多個音素組合之間對應的概率;
將概率最大的音素組確定為所述多個時域語音特征信息對應的音素組;
基于所述音素組,確定所述時域語音數據對應的語音內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010001662.6/1.html,轉載請聲明來源鉆瓜專利網。





