[發明專利]一種音頻特征提取方法、裝置、訓練方法及電子設備在審
| 申請號: | 201911409010.X | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111105812A | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 何維禎 | 申請(專利權)人: | 普聯國際有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/18 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 黃詩彬;郝傳鑫 |
| 地址: | 中國香港九龍尖沙咀科*** | 國省代碼: | 香港;81 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 特征 提取 方法 裝置 訓練 電子設備 | ||
1.一種音頻特征提取方法,其特征在于,所述方法包括:
按照預設的窗口長度獲取待提取音頻,并將所述待提取音頻按照預設的幀長劃分為M幀音頻幀,M1;
計算每一所述音頻幀對應的頻譜;其中,所述頻譜包括N個頻域點,N1;
根據每一所述頻譜的N個頻域點,基于線性擬合算法獲得每一所述頻譜對應的擬合斜率和擬合截距;
根據所述頻譜和預設的計算公式,計算獲得每一所述頻譜的頻譜平坦度;
將每一所述頻譜劃分為m段頻譜帶,并計算獲得每一段所述頻譜帶對應的對數頻譜;m1;
根據每一所述頻譜對應的m段所述對數頻譜,獲得每一所述頻譜的頻譜對比度;
根據每一所述音頻幀的所述擬合斜率、所述擬合截距、所述頻譜平坦度和所述頻譜對比度,獲得每一所述音頻幀的特征量;
根據M幀所述音頻幀的特征量,提取出所述待提取音頻的音頻特征。
2.如權利要求1所述的音頻特征提取方法,其特征在于,所述線性擬合算法為線性最小二乘算法,所述根據每一所述頻譜的N個頻域點,基于線性擬合算法獲得每一所述頻譜對應的擬合斜率和擬合截距,具體包括:
從每一所述頻譜的N個頻域點中,選取所對應的頻率位于預設頻率范圍內的頻域點;
基于線性最小二乘算法,對所選取的對應的頻率位于預設頻率范圍內的頻域點進行線性擬合,獲得每一所述頻譜對應的擬合斜率和擬合截距。
3.如權利要求1所述的音頻特征提取方法,其特征在于,所述將每一所述頻譜劃分為m段頻譜帶,并計算獲得每一段所述頻譜帶對應的對數頻譜,具體包括:
將每一所述頻譜劃分為m段頻譜帶,分別對每一段所述頻譜帶進行K-L變換處理;
根據以下公式,獲得每一段經K-L變換處理后的頻譜帶所對應的對數頻譜:
si(f″)=10×log10 si(f′);
其中,si(f′)為經K-L變換處理后的第i個頻譜帶,si(f″)為si(f′)所對應的對數頻譜,1≤i≤m。
4.如權利要求1所述的音頻特征提取方法,其特征在于,所述根據每一所述頻譜對應的m段所述對數頻譜,獲得每一所述頻譜的頻譜對比度,具體包括:
對于每一段所述對數頻譜,獲取所述對數頻譜的譜峰值和譜谷值,并計算所述譜峰值和所述譜谷值之間的峰谷差值;
對于每一所述頻譜,計算對應的m段所述對數頻譜的m個所述峰谷差值的平均值,獲得所述頻譜的頻譜對比度。
5.如權利要求1所述的音頻特征提取方法,其特征在于,所述計算公式為:
其中,s(f)為所述頻譜;Flatness(s(f))為頻譜s(f)所對應的所述頻譜平坦度;N為所述頻譜所包含的頻域點的數量,x(n)為頻譜s(f)的第n個頻域點的幅值。
6.如權利要求1所述的音頻特征提取方法,其特征在于,所述方法還包括:
計算獲得每一所述音頻幀的梅爾倒譜系數;
則,所述根據每一所述音頻幀的所述擬合斜率、所述擬合截距、所述頻譜平坦度和所述頻譜對比度,獲得每一所述音頻幀的特征量,具體包括:
根據每一所述音頻幀的所述擬合斜率、所述擬合截距、所述頻譜平坦度、所述頻譜對比度和所述梅爾倒譜系數,獲得每一所述音頻幀的特征量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普聯國際有限公司,未經普聯國際有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911409010.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多波長激光器及光學設備
- 下一篇:一種發酵型紅豆桂花羹的制備方法





