[發明專利]一種音頻特征提取方法、系統、設備及介質在審
| 申請號: | 202110134475.X | 申請日: | 2021-01-29 |
| 公開(公告)號: | CN112908307A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 邱實 | 申請(專利權)人: | 云從科技集團股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L25/24 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 李鐵 |
| 地址: | 511457 廣東省廣州市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 特征 提取 方法 系統 設備 介質 | ||
本發明提供一種音頻特征提取方法、系統、設備及介質,根據音頻數據來源執行對應的讀取命令,獲取音頻內容;對音頻內容進行一次或多次特征提取,并按照預設框架將每次提取的音頻特征保存至預設文件中。本發明針對目前存在的問題,設計了一套多功能音頻特征提取方式,包括音頻數據解析、音頻特征提取和特征結果保存三項基本功能,而且可以提供多種結果格式的支持,優化了處理效率。本發明實現了對音頻數據集的一鍵式處理;提取的特征內容支持多種語音算法框架,解決了不同平臺因各自的特征提取算法不同而難以對比實驗的問題。本發明提取效率高,資源占用小,降低了海量音頻數據處理所需的成本。
技術領域
本發明涉及音頻提取技術領域,特別是涉及一種音頻特征提取方法、系統、設備及介質。
背景技術
在語音識別和其他語音相關場景中,音頻特征提取都是其中關鍵的步驟。特征提取會將時域上的音頻信號轉換為各式頻域上的特征,例如FFT(Fast Fourier Transform),Fbank,MFCC(Mel Frequency Cepstral Coefficents)等。許多語音算法的工具和科學計算的庫中都會包含特征提取的功能。然而,目前已有的音頻特征提取工具往往存在以下幾個問題:(1)由于不同的語音算法工具往往使用不同的數據格式,不同格式的音頻特征提取結果難以復用,而一種特征提取工具也難以在另一套算法框架下使用;(2)開源的語音算法框架(如kaldi)自帶的特征提取工具在性能和資源占用上難以令人滿意;(3)雖然c++,python等語言都有音頻特征提取的開源工具,但這些工具只提供了基本功能的接口,很難滿足豐富多變的數據需求。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種音頻特征提取方法、系統、設備及介質,用于解決現有技術存在的技術問題。
為實現上述目的及其他相關目的,本發明提供一種音頻特征提取方法,包括以下步驟:
根據音頻數據來源執行對應的讀取命令,獲取音頻內容;
對所述音頻內容進行一次或多次特征提取,并按照預設框架將每次提取的音頻特征保存至預設文件中。
可選地,提取的音頻特征包括以下至少之一:快速傅里葉變換特征、梅爾濾波器系數特征、梅爾倒譜系數特征、音調特征、身份向量特征。
可選地,對所述音頻內容進行一次或多次特征提取,包括:
對所述音頻內容進行離散傅里葉變換,提取快速傅里葉變換特征;
對所述快速傅里葉變換特征應用梅爾倒譜,提取梅爾濾波器系數特征;
對所述梅爾濾波器系數特征進行離散余弦變換,提取梅爾倒譜系數特征。
可選地,按照預設框架將每次提取的音頻特征保存至預設文件中,包括:將每次提取的音頻特征保存至csv文件、numpy的npy文件和/或kaldi的二進制ark文件中。
可選地,根據音頻數據來源執行對應的讀取命令,獲取音頻內容,包括:
若所述音頻數據來源是wav文件,則直接讀取wav文件,獲取對應的音頻內容;
若所述音頻數據來源是shell命令,則在管道pipeline中執行所述shell命令,獲取對應的音頻內容。
可選地,還包括根據語音數據集構建語音數據信息表,并根據所述語音數據信息表確定音頻數據來源;
其中,所述語音數據集中的內容包括以下至少之一:音頻編號、音頻文件的存儲位置、音頻的長度、音頻對應的文本內容標注。
本發明還提供一種音頻特征提取系統,包括有:
采集模塊,用于根據音頻數據來源執行對應的讀取命令,獲取音頻內容;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云從科技集團股份有限公司,未經云從科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110134475.X/2.html,轉載請聲明來源鉆瓜專利網。





