[發明專利]音頻處理方法、裝置、存儲介質及電子設備有效
| 申請號: | 202310053893.5 | 申請日: | 2023-02-03 |
| 公開(公告)號: | CN115798459B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 劉艷鑫 | 申請(專利權)人: | 北京探境科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/26;G10L15/30;G10L25/18 |
| 代理公司: | 深圳市嘉勤知識產權代理有限公司 44651 | 代理人: | 劉婧 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 存儲 介質 電子設備 | ||
1.一種音頻處理方法,其特征在于,包括:
獲取初始音頻數據,并將所述初始音頻數據切分為多個子音頻;
對所述子音頻的音頻數據進行傅里葉變換,得到頻域數據,對所述頻域數據進行歸一化,并對歸一化后的頻域數據進行整數轉換處理,生成中間頻域數據;
對所述中間頻域數據進行梅爾濾波以及離散余弦變換處理,得到頻域特征信息;
將所述頻域特征信息輸入至預訓練的語種分類模型,輸出多個語種類別所分別對應的概率值,并根據所述概率值確定所述子音頻對應的語種信息,其中,所述語種分類模型的構建過程包括,通過卷積層構建特征編碼層,基于所述特征編碼層提取所述頻域特征信息的高維語音特征,對所述高維語音特征進行矩陣變換,通過注意力層或長短時神經網絡層構建時序處理器,并將所述矩陣變換后的特征信息通過時序處理器進行映射,將映射后的特征信息通過分類器進行分類,以輸出預測的標簽編碼;
基于所述語種信息識別所述子音頻對應的字幕文件。
2.如權利要求1所述的音頻處理方法,其特征在于,在對所述子音頻的音頻數據進行傅里葉變換,得到頻域數據之前,所述方法還包括:
按照預設幀長以及偏移量,對所述子音頻的音頻數據進行預加重、分幀和加窗處理,得到處理后的音頻數據。
3.如權利要求1所述的音頻處理方法,其特征在于,所述語種分類模型的訓練過程包括:
獲取語音樣本對應的頻域特征信息以及真實標簽編碼;
通過所述語種分類模型輸出所述語音樣本的預測標簽編碼;
根據所述真實標簽編碼與所述預測標簽編碼計算損失函數,并利用所述損失函數通過反向傳播和梯度下降算法對所述語種識別模型進行訓練。
4.如權利要求1所述的音頻處理方法,其特征在于,所述將所述初始音頻數據切分為多個子音頻,包括:
對所述初始音頻數據的采樣率進行轉換;
對轉換采樣率后的音頻數據進行人聲提取處理;
將提取到的人聲音頻按照預設音頻時長區間以及靜音時長閾值進行切分,以得到多個包含時間戳的子音頻。
5.如權利要求4所述的音頻處理方法,其特征在于,所述靜音時長閾值包括依次遞減的多個閾值,所述將提取到的人聲音頻按照預設音頻時長區間以及靜音時長閾值進行切分,包括:
根據第一靜音時長閾值在所述人聲音頻中選擇第一切分點,并基于所述第一切分點對所述人聲音頻進行首次切分,以得到多個音頻段;
在所述多個音頻段中,針對音頻時長大于所述預設音頻時長區間的音頻段基于第二靜音時長閾值再次進行切分;
根據剩余的靜音時長閾值依次進行切分,直到根據最小的靜音時長閾值切分后,得到多個子音頻。
6.如權利要求1所述的音頻處理方法,其特征在于,所述基于所述語種信息識別所述子音頻對應的字幕文件,包括:
根據所述語種信息對所述子音頻進行語音識別;
根據語音識別結果生成所述子音頻對應的字幕文件。
7.一種音頻處理裝置,其特征在于,包括:
切分模塊,用于獲取初始音頻數據,并將所述初始音頻數據切分為多個子音頻;
第一處理模塊,用于對所述子音頻的音頻數據進行傅里葉變換,得到頻域數據,對所述頻域數據進行歸一化,并對歸一化后的頻域數據進行整數轉換處理,生成中間頻域數據;
第二處理模塊,用于對所述中間頻域數據進行梅爾濾波以及離散余弦變換處理,得到頻域特征信息;
分類模塊,用于將所述頻域特征信息輸入至預訓練的語種分類模型,輸出多個語種類別所分別對應的概率值,并根據所述概率值確定所述子音頻對應的語種信息,其中,所述語種分類模型的構建過程包括,通過卷積層構建特征編碼層,基于所述特征編碼層提取所述頻域特征信息的高維語音特征,對所述高維語音特征進行矩陣變換,通過注意力層或長短時神經網絡層構建時序處理器,并將所述矩陣變換后的特征信息通過時序處理器進行映射,將映射后的特征信息通過分類器進行分類,以輸出預測的標簽編碼;
識別模塊,用于基于所述語種信息識別所述子音頻對應的字幕文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京探境科技有限公司,未經北京探境科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310053893.5/1.html,轉載請聲明來源鉆瓜專利網。





