[發(fā)明專利]音頻處理方法及裝置在審

申請?zhí)枺?/td>	202011131544.3	申請日：	2020-10-21
公開（公告）號：	CN112185363A	公開（公告）日：	2021-01-05
發(fā)明（設(shè)計）人：	高強;王卓然;王宏偉;夏龍;劉前;閆永超;郭常圳	申請（專利權(quán)）人：	北京猿力未來科技有限公司
主分類號：	G10L15/16	分類號：	G10L15/16;G10L15/00;G10L15/22;G10L15/26;G10L25/24;G10L25/51
代理公司：	北京智信禾專利代理有限公司 11637	代理人：	劉曉楠
地址：	100102 北京市朝陽區(qū)廣順南大***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻處理方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種音頻處理方法，其特征在于，包括：

獲取包含至少兩個語種的音頻文件；

確定所述音頻文件對應(yīng)的特征矩陣，并將所述特征矩陣輸入至語音識別模型進行處理，獲得包含語種識別符的目標(biāo)文本；

根據(jù)所述語種識別符確定所述目標(biāo)文本中包含的至少兩個語種分別對應(yīng)的目標(biāo)字符，并確定所述音頻文件的音頻時長；

基于所述至少兩個語種分別對應(yīng)的目標(biāo)字符和所述音頻時長計算所述音頻文件中聲源的語速。

2.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述將所述特征矩陣輸入至語音識別模型進行處理，獲得包含語種識別符的目標(biāo)文本，包括：

將所述特征矩陣輸入至所述語音識別模型，通過所述語音識別模型中的編碼器進行特征編碼，輸出所述音頻文件的特征序列；

將所述特征序列引入注意力機制之后通過所述語音識別模型中的解碼器進行解碼，輸出所述音頻文件的目標(biāo)特征序列；

通過所述語音識別模型中的輸出層對所述目標(biāo)特征序列進行處理，輸出包含所述語種識別符的所述目標(biāo)文本。

3.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述確定所述音頻文件對應(yīng)的特征矩陣，包括：

對所述音頻文件進行分幀處理，獲得多個音頻幀；

確定所述多個音頻幀分別對應(yīng)的特征向量；

基于所述多個音頻幀分別對應(yīng)的特征向量生成所述音頻文件對應(yīng)的所述特征矩陣。

4.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述語音識別模型通過如下方式訓(xùn)練：

獲取樣本音頻文件，并對所述樣本音頻文件進行分幀處理，獲得多個樣本音頻幀；

確定所述多個樣本音頻幀分別對應(yīng)的樣本特征向量，基于所述樣本特征向量組成所述樣本音頻文件對應(yīng)的樣本特征矩陣；

確定所述樣本音頻文件對應(yīng)的樣本文本，并按照所述樣本文本中包含的語種類型在所述樣本文本中添加語種識別符，獲得樣本目標(biāo)文本；

基于所述樣本特征矩陣和所述樣本目標(biāo)文本訓(xùn)練初始語音識別模型，獲得所述語音識別模型。

5.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述根據(jù)所述語種識別符確定所述目標(biāo)文本中包含的至少兩個語種分別對應(yīng)的目標(biāo)字符，包括：

確定所述語種識別符中與所述目標(biāo)文本包含的至少兩個語種分別對應(yīng)的語種子識別符；

按照所述至少兩個語種分別對應(yīng)的語種子識別符對所述目標(biāo)文本進行歸類，獲得與所述至少兩個語種分別對應(yīng)的目標(biāo)子文本；

識別所述至少兩個語種分別對應(yīng)的目標(biāo)子文本中包含的字符，根據(jù)識別結(jié)果確定所述至少兩個語種分別對應(yīng)的目標(biāo)字符。

6.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述確定所述音頻文件的音頻時長，包括：

構(gòu)建音頻文件對應(yīng)的音量幅度特征，并根據(jù)所述音量幅度特征確定所述音頻文件中的靜默音頻片段；

確定所述靜默音頻片段的靜默音頻時長，以及所述音頻文件的音頻總時長；

計算所述音頻總時長與所述靜默音頻時長二者的差值，獲得所述音頻時長。

7.根據(jù)權(quán)利要求1或6所述的音頻處理方法，其特征在于，所述基于所述至少兩個語種分別對應(yīng)的目標(biāo)字符和所述音頻時長計算所述音頻文件中聲源的語速，包括：

確定所述至少兩個語種分別對應(yīng)的目標(biāo)字符的字符數(shù)量，并將所述至少兩個語種分別對應(yīng)的目標(biāo)字符的字符數(shù)量進行求和，獲得總字符數(shù)量；

計算所述總字符數(shù)量和所述音頻時長二者的比值，獲得所述音頻文件中聲源的語速。

8.根據(jù)權(quán)利要求1所述的音頻處理方法，其特征在于，所述基于所述至少兩個語種分別對應(yīng)的目標(biāo)字符和所述音頻時長計算所述音頻文件中聲源的語速步驟執(zhí)行之后，還包括：

確定所述音頻文件中所述至少兩個語種分別對應(yīng)的語種音頻片段；

按照所述語速對所述至少兩個語種分別對應(yīng)的語種音頻片段進行調(diào)整，根據(jù)調(diào)整結(jié)果生成目標(biāo)音頻文件。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京猿力未來科技有限公司，未經(jīng)北京猿力未來科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011131544.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種智能牧場環(huán)境控制系統(tǒng)
下一篇：一種采砂裝駁顆粒篩分裝置

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】