[發明專利]音頻處理方法及裝置在審
| 申請號: | 202011131544.3 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112185363A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 高強;王卓然;王宏偉;夏龍;劉前;閆永超;郭常圳 | 申請(專利權)人: | 北京猿力未來科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/00;G10L15/22;G10L15/26;G10L25/24;G10L25/51 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區廣順南大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 | ||
本說明書提供音頻處理方法及裝置,其中所述音頻處理方法包括:獲取包含至少兩個語種的音頻文件;確定所述音頻文件對應的特征矩陣,并將所述特征矩陣輸入至語音識別模型進行處理,獲得包含語種識別符的目標文本;根據所述語種識別符確定所述目標文本中包含的至少兩個語種分別對應的目標字符,并確定所述音頻文件的音頻時長;基于所述至少兩個語種分別對應的目標字符和所述音頻時長計算所述音頻文件中聲源的語速;實現對存在混合語種的語音語速進行精準的確定,進一步滿足不同業務場景的使用需求。
技術領域
本說明書涉及音頻處理技術領域,特別涉及音頻處理方法及裝置。
背景技術
隨著互聯網技術的發展,語音識別技術被應用到了更為廣泛的應用場景,如即時通訊場景、視頻播放場景或音頻播放場景等等,都會涉及語音識別技術的應用,而語速作為感情表達的方式之一,不僅能夠反映用戶的講話節奏,還是用戶調整表述方式的一種手段。在語音處理場景中,識別語音中用戶講話的語速是處理語音的重要手段,現有技術在識別語音中用戶講話的語速時,通常是根據音節速率來估計講話用戶的語速,但是在不同的語種中一個音節并不一定表達一個字符,這就導致估計混合語音時(包含至少兩個語種)出現估計語速和真實語速不一致的問題,從而影響下游的業務處理,因此亟需一種有效的方案以解決該問題。
發明內容
有鑒于此,本說明書實施例提供了一種音頻處理方法。本說明書同時涉及一種音頻處理裝置,一種計算設備,以及一種計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
根據本說明書實施例的第一方面,提供了一種音頻處理方法,包括:
獲取包含至少兩個語種的音頻文件;
確定所述音頻文件對應的特征矩陣,并將所述特征矩陣輸入至語音識別模型進行處理,獲得包含語種識別符的目標文本;
根據所述語種識別符確定所述目標文本中包含的至少兩個語種分別對應的目標字符,并確定所述音頻文件的音頻時長;
基于所述至少兩個語種分別對應的目標字符和所述音頻時長計算所述音頻文件中聲源的語速。
可選的,所述將所述特征矩陣輸入至語音識別模型進行處理,獲得包含語種識別符的目標文本,包括:
將所述特征矩陣輸入至所述語音識別模型,通過所述語音識別模型中的編碼器進行特征編碼,輸出所述音頻文件的特征序列;
將所述特征序列引入注意力機制之后通過所述語音識別模型中的解碼器進行解碼,輸出所述音頻文件的目標特征序列;
通過所述語音識別模型中的輸出層對所述目標特征序列進行處理,輸出包含所述語種識別符的所述目標文本。
可選的,所述確定所述音頻文件對應的特征矩陣,包括:
對所述音頻文件進行分幀處理,獲得多個音頻幀;
確定所述多個音頻幀分別對應的特征向量;
基于所述多個音頻幀分別對應的特征向量生成所述音頻文件對應的所述特征矩陣。
可選的,所述語音識別模型通過如下方式訓練:
獲取樣本音頻文件,并對所述樣本音頻文件進行分幀處理,獲得多個樣本音頻幀;
確定所述多個樣本音頻幀分別對應的樣本特征向量,基于所述樣本特征向量組成所述樣本音頻文件對應的樣本特征矩陣;
確定所述樣本音頻文件對應的樣本文本,并按照所述樣本文本中包含的語種類型在所述樣本文本中添加語種識別符,獲得樣本目標文本;
基于所述樣本特征矩陣和所述樣本目標文本訓練初始語音識別模型,獲得所述語音識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京猿力未來科技有限公司,未經北京猿力未來科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011131544.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能牧場環境控制系統
- 下一篇:一種采砂裝駁顆粒篩分裝置





