[發(fā)明專利]音頻處理方法及裝置在審
| 申請?zhí)枺?/td> | 202011131544.3 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112185363A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計)人: | 高強;王卓然;王宏偉;夏龍;劉前;閆永超;郭常圳 | 申請(專利權(quán))人: | 北京猿力未來科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/00;G10L15/22;G10L15/26;G10L25/24;G10L25/51 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區(qū)廣順南大*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 處理 方法 裝置 | ||
1.一種音頻處理方法,其特征在于,包括:
獲取包含至少兩個語種的音頻文件;
確定所述音頻文件對應(yīng)的特征矩陣,并將所述特征矩陣輸入至語音識別模型進行處理,獲得包含語種識別符的目標(biāo)文本;
根據(jù)所述語種識別符確定所述目標(biāo)文本中包含的至少兩個語種分別對應(yīng)的目標(biāo)字符,并確定所述音頻文件的音頻時長;
基于所述至少兩個語種分別對應(yīng)的目標(biāo)字符和所述音頻時長計算所述音頻文件中聲源的語速。
2.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述將所述特征矩陣輸入至語音識別模型進行處理,獲得包含語種識別符的目標(biāo)文本,包括:
將所述特征矩陣輸入至所述語音識別模型,通過所述語音識別模型中的編碼器進行特征編碼,輸出所述音頻文件的特征序列;
將所述特征序列引入注意力機制之后通過所述語音識別模型中的解碼器進行解碼,輸出所述音頻文件的目標(biāo)特征序列;
通過所述語音識別模型中的輸出層對所述目標(biāo)特征序列進行處理,輸出包含所述語種識別符的所述目標(biāo)文本。
3.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述確定所述音頻文件對應(yīng)的特征矩陣,包括:
對所述音頻文件進行分幀處理,獲得多個音頻幀;
確定所述多個音頻幀分別對應(yīng)的特征向量;
基于所述多個音頻幀分別對應(yīng)的特征向量生成所述音頻文件對應(yīng)的所述特征矩陣。
4.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述語音識別模型通過如下方式訓(xùn)練:
獲取樣本音頻文件,并對所述樣本音頻文件進行分幀處理,獲得多個樣本音頻幀;
確定所述多個樣本音頻幀分別對應(yīng)的樣本特征向量,基于所述樣本特征向量組成所述樣本音頻文件對應(yīng)的樣本特征矩陣;
確定所述樣本音頻文件對應(yīng)的樣本文本,并按照所述樣本文本中包含的語種類型在所述樣本文本中添加語種識別符,獲得樣本目標(biāo)文本;
基于所述樣本特征矩陣和所述樣本目標(biāo)文本訓(xùn)練初始語音識別模型,獲得所述語音識別模型。
5.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述根據(jù)所述語種識別符確定所述目標(biāo)文本中包含的至少兩個語種分別對應(yīng)的目標(biāo)字符,包括:
確定所述語種識別符中與所述目標(biāo)文本包含的至少兩個語種分別對應(yīng)的語種子識別符;
按照所述至少兩個語種分別對應(yīng)的語種子識別符對所述目標(biāo)文本進行歸類,獲得與所述至少兩個語種分別對應(yīng)的目標(biāo)子文本;
識別所述至少兩個語種分別對應(yīng)的目標(biāo)子文本中包含的字符,根據(jù)識別結(jié)果確定所述至少兩個語種分別對應(yīng)的目標(biāo)字符。
6.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述確定所述音頻文件的音頻時長,包括:
構(gòu)建音頻文件對應(yīng)的音量幅度特征,并根據(jù)所述音量幅度特征確定所述音頻文件中的靜默音頻片段;
確定所述靜默音頻片段的靜默音頻時長,以及所述音頻文件的音頻總時長;
計算所述音頻總時長與所述靜默音頻時長二者的差值,獲得所述音頻時長。
7.根據(jù)權(quán)利要求1或6所述的音頻處理方法,其特征在于,所述基于所述至少兩個語種分別對應(yīng)的目標(biāo)字符和所述音頻時長計算所述音頻文件中聲源的語速,包括:
確定所述至少兩個語種分別對應(yīng)的目標(biāo)字符的字符數(shù)量,并將所述至少兩個語種分別對應(yīng)的目標(biāo)字符的字符數(shù)量進行求和,獲得總字符數(shù)量;
計算所述總字符數(shù)量和所述音頻時長二者的比值,獲得所述音頻文件中聲源的語速。
8.根據(jù)權(quán)利要求1所述的音頻處理方法,其特征在于,所述基于所述至少兩個語種分別對應(yīng)的目標(biāo)字符和所述音頻時長計算所述音頻文件中聲源的語速步驟執(zhí)行之后,還包括:
確定所述音頻文件中所述至少兩個語種分別對應(yīng)的語種音頻片段;
按照所述語速對所述至少兩個語種分別對應(yīng)的語種音頻片段進行調(diào)整,根據(jù)調(diào)整結(jié)果生成目標(biāo)音頻文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京猿力未來科技有限公司,未經(jīng)北京猿力未來科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011131544.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





