[發(fā)明專利]音頻處理方法、裝置、存儲介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202310053893.5 | 申請日: | 2023-02-03 |
| 公開(公告)號: | CN115798459B | 公開(公告)日: | 2023-05-12 |
| 發(fā)明(設(shè)計)人: | 劉艷鑫 | 申請(專利權(quán))人: | 北京探境科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L15/26;G10L15/30;G10L25/18 |
| 代理公司: | 深圳市嘉勤知識產(chǎn)權(quán)代理有限公司 44651 | 代理人: | 劉婧 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 處理 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本申請實施例公開了一種音頻處理方法、裝置、存儲介質(zhì)及電子設(shè)備。該方法包括:獲取初始音頻數(shù)據(jù),并將初始音頻數(shù)據(jù)切分為多個子音頻,對子音頻的音頻數(shù)據(jù)進(jìn)行傅里葉變換,得到頻域數(shù)據(jù),對頻域數(shù)據(jù)進(jìn)行梅爾濾波以及離散余弦變換處理,得到頻域特征信息,將頻域特征信息輸入至預(yù)訓(xùn)練的語種分類模型,輸出多個語種類別所分別對應(yīng)的概率值,并根據(jù)概率值確定子音頻對應(yīng)的語種信息,基于語種信息識別子音頻對應(yīng)的字幕文件。本申請實施例可以對音頻數(shù)據(jù)進(jìn)行切分并識別出音頻所對應(yīng)的語種信息,基于語種信息識別音頻對應(yīng)的字幕文件,使得最終得到的字幕文件準(zhǔn)確性更高。
技術(shù)領(lǐng)域
本申請涉及音頻數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種音頻處理方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
近年來,隨著智能音箱和語音助手等的普及,語音識別越來越被大家所接受,這項技術(shù)被應(yīng)用的場景也越來越多,例如:通過語音來控制設(shè)備、實現(xiàn)內(nèi)容搜索成為大家日常生活中很重要的一部分。但目前訓(xùn)練一個能夠商用的語音識別系統(tǒng)是比較困難的,因為訓(xùn)練這樣的語音識別系統(tǒng)需要大量的標(biāo)注語料(上萬小時),而獲取這些語料成本過于昂貴。
目前常用的獲取訓(xùn)練語料的兩種方法,一種方法是,數(shù)據(jù)公司招募并組織用戶采集數(shù)據(jù),采集后的數(shù)據(jù)需要進(jìn)行清洗和標(biāo)注,但這樣的流程執(zhí)行起來有諸多限制,一是需要投入大量的資金;二是由于需要人工參與,采集流程很長,不能保證時效性。另一種方法是,從互聯(lián)網(wǎng)上可以低成本獲取海量語料,但是這樣的語料質(zhì)量無法保證,例如:存在大量非人聲噪音,字幕和音頻不能完全對應(yīng)等問題。
發(fā)明內(nèi)容
本申請實施例提供一種音頻處理方法、裝置、存儲介質(zhì)及電子設(shè)備,可以識別出音頻所對應(yīng)的語種信息,并基于語種信息識別音頻對應(yīng)的字幕文件,使得最終得到的字幕文件準(zhǔn)確性更高。
本申請實施例提供了一種音頻處理方法,包括:
獲取初始音頻數(shù)據(jù),并將所述初始音頻數(shù)據(jù)切分為多個子音頻;
對所述子音頻的音頻數(shù)據(jù)進(jìn)行傅里葉變換,得到頻域數(shù)據(jù);
對所述頻域數(shù)據(jù)進(jìn)行梅爾濾波以及離散余弦變換處理,得到頻域特征信息;
將所述頻域特征信息輸入至預(yù)訓(xùn)練的語種分類模型,輸出多個語種類別所分別對應(yīng)的概率值,并根據(jù)所述概率值確定所述子音頻對應(yīng)的語種信息;
基于所述語種信息識別所述子音頻對應(yīng)的字幕文件。
在一實施例中,在對所述子音頻的音頻數(shù)據(jù)進(jìn)行傅里葉變換,得到頻域數(shù)據(jù)之前,所述方法還包括:
按照預(yù)設(shè)幀長以及偏移量,對所述子音頻的音頻數(shù)據(jù)進(jìn)行預(yù)加重、分幀和加窗處理,得到處理后的音頻數(shù)據(jù)。
在一實施例中,所述語種分類模型的構(gòu)建過程包括:
通過卷積層構(gòu)建特征編碼層,基于所述特征編碼層提取所述頻域特征信息的高維語音特征;
對所述高維語音特征進(jìn)行矩陣變換;
通過注意力層或長短時神經(jīng)網(wǎng)絡(luò)層構(gòu)建時序處理器,并將所述矩陣變換后的特征信息通過時序處理器進(jìn)行映射;
將映射后的特征信息通過分類器進(jìn)行分類,以輸出預(yù)測的標(biāo)簽編碼。
在一實施例中,所述語種分類模型的訓(xùn)練過程包括:
獲取語音樣本對應(yīng)的頻域特征信息以及真實標(biāo)簽編碼;
通過所述語種分類模型輸出所述語音樣本的預(yù)測標(biāo)簽編碼;
根據(jù)所述真實標(biāo)簽編碼與所述預(yù)測標(biāo)簽編碼計算損失函數(shù),并利用所述損失函數(shù)通過反向傳播和梯度下降算法對所述語種識別模型進(jìn)行訓(xùn)練。
在一實施例中,所述將所述初始音頻數(shù)據(jù)切分為多個子音頻,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京探境科技有限公司,未經(jīng)北京探境科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310053893.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





