[發明專利]音頻處理方法及裝置在審

申請號：	202011131544.3	申請日：	2020-10-21
公開（公告）號：	CN112185363A	公開（公告）日：	2021-01-05
發明（設計）人：	高強;王卓然;王宏偉;夏龍;劉前;閆永超;郭常圳	申請（專利權）人：	北京猿力未來科技有限公司
主分類號：	G10L15/16	分類號：	G10L15/16;G10L15/00;G10L15/22;G10L15/26;G10L25/24;G10L25/51
代理公司：	北京智信禾專利代理有限公司 11637	代理人：	劉曉楠
地址：	100102 北京市朝陽區廣順南大***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	音頻處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本說明書提供音頻處理方法及裝置，其中所述音頻處理方法包括：獲取包含至少兩個語種的音頻文件；確定所述音頻文件對應的特征矩陣，并將所述特征矩陣輸入至語音識別模型進行處理，獲得包含語種識別符的目標文本；根據所述語種識別符確定所述目標文本中包含的至少兩個語種分別對應的目標字符，并確定所述音頻文件的音頻時長；基于所述至少兩個語種分別對應的目標字符和所述音頻時長計算所述音頻文件中聲源的語速；實現對存在混合語種的語音語速進行精準的確定，進一步滿足不同業務場景的使用需求。

技術領域

本說明書涉及音頻處理技術領域，特別涉及音頻處理方法及裝置。

背景技術

隨著互聯網技術的發展，語音識別技術被應用到了更為廣泛的應用場景，如即時通訊場景、視頻播放場景或音頻播放場景等等，都會涉及語音識別技術的應用，而語速作為感情表達的方式之一，不僅能夠反映用戶的講話節奏，還是用戶調整表述方式的一種手段。在語音處理場景中，識別語音中用戶講話的語速是處理語音的重要手段，現有技術在識別語音中用戶講話的語速時，通常是根據音節速率來估計講話用戶的語速，但是在不同的語種中一個音節并不一定表達一個字符，這就導致估計混合語音時(包含至少兩個語種)出現估計語速和真實語速不一致的問題，從而影響下游的業務處理，因此亟需一種有效的方案以解決該問題。

發明內容

有鑒于此，本說明書實施例提供了一種音頻處理方法。本說明書同時涉及一種音頻處理裝置，一種計算設備，以及一種計算機可讀存儲介質，以解決現有技術中存在的技術缺陷。

根據本說明書實施例的第一方面，提供了一種音頻處理方法，包括：

獲取包含至少兩個語種的音頻文件；

確定所述音頻文件對應的特征矩陣，并將所述特征矩陣輸入至語音識別模型進行處理，獲得包含語種識別符的目標文本；

根據所述語種識別符確定所述目標文本中包含的至少兩個語種分別對應的目標字符，并確定所述音頻文件的音頻時長；

基于所述至少兩個語種分別對應的目標字符和所述音頻時長計算所述音頻文件中聲源的語速。

可選的，所述將所述特征矩陣輸入至語音識別模型進行處理，獲得包含語種識別符的目標文本，包括：

將所述特征矩陣輸入至所述語音識別模型，通過所述語音識別模型中的編碼器進行特征編碼，輸出所述音頻文件的特征序列；

將所述特征序列引入注意力機制之后通過所述語音識別模型中的解碼器進行解碼，輸出所述音頻文件的目標特征序列；

通過所述語音識別模型中的輸出層對所述目標特征序列進行處理，輸出包含所述語種識別符的所述目標文本。

可選的，所述確定所述音頻文件對應的特征矩陣，包括：