[發明專利]一種基于FPGA的實時聲音分類方法及系統有效
| 申請號: | 202011239248.5 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112397090B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 肖卓凌;柴進;孟子杰;王志軒;閻波;袁子強 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G06N3/04;G10L25/03;G10L25/18;G10L25/30;G10L25/45 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李林合 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 fpga 實時 聲音 分類 方法 系統 | ||
1.一種基于FPGA的實時聲音分類方法,其特征在于,包括如下步驟:
S1、獲取聲音數字數據;
S2、提取所獲取的聲音數字數據中的聲音特征,獲得聲音特征圖;
S3、獲取聲音特征圖進行分類計算,獲取聲音判斷概率,具體方式為:
S31、對聲音特征圖進行填充,獲得聲音特征的填充特征圖;
S32、將填充特征圖經過卷積層計算后,通過激活函數再進行最大池化得到進一步的聲音特征圖;
S33、重復多次上述步驟得到三維的聲音特征圖,具體重復方式為:
將輸入的MFSC聲音特征圖作為第一特征圖,其特征圖矩陣的邊緣進行零填充,其目一是經過3*3卷積核之后可以保持特征圖片大小不變,二是可以保留邊緣信息,經過填充得到大小為162*66*1的第一填充特征圖;
將第一填充特征圖經過大小3*3卷積核計算,3*3的卷積核在特征圖上滑動,并與其做乘加運算,得到的結果放在特征圖的原位置,然后通過Relu6激活函數,對于特征圖中小于0的數全部置0,大于6的數全部置6,其余保持不變;再進行最大池化,使用2*2的窗口在特征圖上滑動,只保留每個窗口中的最大數,使得特征圖的長和寬變為原來的一半,最后得到大小為80*32*64第二特征圖,將第二特征圖進行零填充,得到大小為82*34*64的第二填充特征圖;
將第二特填充征圖經過卷積計算,然后通過Relu6激活函數并進行最大池化,得到大小為40*16*128的第三特征圖,將第三特征圖進行零填充,得到大小為42*18*128的第三填充特征圖;
將第三填充特征圖經過卷積計算,然后通過Relu6激活函數并進行最大池化,得到大小為40*16*256的第四特征圖,將第四特征圖進行零填充,得到大小為42*18*256的第四填充特征圖;
將第四填充特征圖經過卷積計算,然后通過Relu6激活函數并進行最大池化,得到大小為20*8*256的第五特征圖,將第五特征圖進行零填充,得到大小為22*10*256的第五填充特征圖;
將第五填充特征圖經過卷積計算,然后通過Relu6激活函數并進行最大池化,得到大小為20*8*256的第六特征圖,將第六特征圖進行零填充,得到大小為22*10*256的第六填充特征圖;
將第六填充特征圖經過大小為1*1*128的卷積核計算,然后通過Relu6激活函數并進行最大池化,得到大小為1*8*512的第七特征圖,將第七特征圖經過卷積計算然后通過Relu6激活函數,得到大小為1*8*128的第八特征圖;
將第八特征圖經過1*1*128的卷積核計算,并通過激活函數得到大小為1*8*64的第九特征圖;
S34、將三維的聲音特征圖各通道首尾相連,降維形成聲音特征數據,具體方式為:
將第九特征圖各通道首尾相接,使其由三維降至二維,形成大小為1*512*1的第十特征圖;
S35、將聲音特征數據通過全連接層,獲取不同聲音判決的概率,具體方式為:將第十特征圖通過全連接層得到6個數值,然后經過sigmoid函數輸出6個在0、1之間的事件發生的概率;
S4、根據聲音判決最大的概率得到聲音的分類結果,具體判決方式為:
根據步驟S35得到三種不同聲音判決的概率,其中最大的概率即為聲音分類的結果。
2.根據權利要求1所述的一種基于FPGA的實時聲音分類方法,其特征在于,所述聲音特征的提取過程包括:
S21、采用異步FIFO對輸入對聲音數字數據進行分幀形成數據幀;
S22、對數據幀進行加窗,得到加窗之后的數據幀;
S23、對加窗之后的數據幀進行快速傅立葉變換,輸出兩路數據;
S24、將輸出的兩路數據中包含頻域信息的數據分別進行幅度計算,獲得聲音頻域幅度數據;
S25、將聲音頻域幅度數據進行Mel濾波,輸出多個Mel濾波輸出;
S26、將多個Mel濾波輸出進行對數計算,獲得聲音特征圖。
3.根據權利要求2所述的一種基于FPGA的實時聲音分類方法,其特征在于,Mel濾波器包括多個具有Mel尺度的三角帶通濾波器,每個三角濾波器的中心頻率f(m)之間的間距隨m增大而增寬。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011239248.5/1.html,轉載請聲明來源鉆瓜專利網。





