[發明專利]一種語種識別的方法、模型訓練的方法、裝置及設備有效
| 申請號: | 201911137417.1 | 申請日: | 2019-11-19 |
| 公開(公告)號: | CN110853618B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 高驥;張姍姍;黃申;巫海維;蔡煒城;李明 | 申請(專利權)人: | 騰訊科技(深圳)有限公司;昆山杜克大學 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/16;G10L21/0272;G10L21/0308;G10L25/18;G10L25/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 吳磊 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語種 識別 方法 模型 訓練 裝置 設備 | ||
1.一種語種識別的方法,其特征在于,包括:
獲取待識別音頻數據;
從所述待識別音頻數據提取音頻頻域特征;
基于所述音頻頻域特征,對所述待識別音頻數據進行聲伴數據分離,得到待識別語音數據,其中,所述聲伴數據分離為從音頻數據中分離出語音數據和伴奏數據;
對所述待識別語音數據進行語種識別,得到所述待識別音頻數據的語種識別結果;
其中,所述基于所述音頻頻域特征,對所述待識別音頻數據進行聲伴數據分離,得到待識別語音數據,包括:
基于所述音頻頻域特征,通過聲伴分離模型所包括的第一卷積神經網絡對所述音頻頻域特征進行正向卷積處理,得到音頻深度特征,其中,所述第一卷積神經網絡包括多個正向卷積層;
通過所述聲伴分離模型所包括的多層感知機對所述音頻深度特征進行分類處理,得到第一語音數據特征以及第一伴奏數據特征;
通過所述聲伴分離模型所包括的第二卷積神經網絡對所述第一語音數據特征進行反向卷積處理,得到第二語音數據特征,其中,所述第二卷積神經網絡包括第一逆向卷積網絡以及第二逆向卷積網絡,所述第一逆向卷積網絡用于對所述第一語音數據特征進行反向卷積處理,所述第二逆向卷積網絡用于對所述第一伴奏數據特征進行反向卷積處理,且所述第一逆向卷積網絡與所述第二逆向卷積網絡均包括多逆向卷積層;
根據所述第二語音數據特征獲取待識別語音數據,其中,所述待識別語音數據屬于音頻時域信號;
或,所述基于所述音頻頻域特征,對所述待識別音頻數據進行聲伴數據分離,得到待識別語音數據,包括:
基于所述音頻頻域特征,通過聲伴分離模型所包括的第一卷積神經網絡對所述音頻頻域特征進行正向卷積處理,得到第一音頻深度特征,其中,所述第一卷積神經網絡包括多個正向卷積層;
基于所述第一音頻深度特征,通過所述聲伴分離模型所包括的第二卷積神經網絡對所述第一音頻深度特征進行反向卷積處理,得到第二音頻深度特征,其中,所述第二卷積神經網絡包括多逆向卷積層;
通過所述聲伴分離模型所包括的多層感知機對所述第二音頻深度特征進行分類處理,得到語音數據特征以及伴奏數據特征,其中,所述多層感知機包括第一多層感知機以及第二多層感知機,所述第一多層感知機用于獲取所述語音數據特征,所述第二多層感知機用于獲取所述伴奏數據特征;
基于所述語音數據特征,獲取待識別語音數據,其中,所述待識別語音數據屬于音頻時域信號。
2.根據權利要求1所述的方法,其特征在于,所述通過所述聲伴分離模型所包括的多層感知機對所述音頻深度特征進行分類處理,得到第一語音數據特征以及第一伴奏數據特征之后,所述方法還包括:
基于所述第一伴奏數據特征,通過所述聲伴分離模型獲取第二伴奏數據特征;
根據所述第二伴奏數據特征獲取伴奏數據,其中,所述伴奏數據屬于音頻時域信號。
3.根據權利要求1至2中任一項所述的方法,其特征在于,所述對所述待識別語音數據進行語種識別,得到所述待識別音頻數據的語種識別結果,包括:
根據所述待識別語音數據生成第一語音頻域特征;
基于所述第一語音頻域特征,通過第一語種識別模型獲取第一語種分布概率,其中,所述第一語種識別模型屬于語種識別模型;
根據所述待識別語音數據生成語音模擬數據;
根據所述語音模擬數據生成第二語音頻域特征;
基于所述第二語音頻域特征,通過第二語種識別模型獲取第二語種分布概率,其中,所述第二語種識別模型屬于語種識別模型;
根據所述第一語種分布概率以及所述第二語種分布概率,生成所述語種識別結果。
4.根據權利要求3所述的方法,其特征在于,所述基于所述第一語音頻域特征,通過第一語種識別模型獲取第一語種分布概率,包括:
基于所述第一語音頻域特征,通過所述第一語種識別模型獲取第一語音深度特征;
基于所述第一語音深度特征,通過所述第一語種識別模型獲取第一特征向量;
基于所述第一特征向量,通過所述第一語種識別模型獲取所述第一語種分布概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司;昆山杜克大學,未經騰訊科技(深圳)有限公司;昆山杜克大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911137417.1/1.html,轉載請聲明來源鉆瓜專利網。





