[發明專利]一種基于FPGA的實時聲音分類方法及系統有效
| 申請號: | 202011239248.5 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112397090B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 肖卓凌;柴進;孟子杰;王志軒;閻波;袁子強 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G06N3/04;G10L25/03;G10L25/18;G10L25/30;G10L25/45 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李林合 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 fpga 實時 聲音 分類 方法 系統 | ||
本發明公開了一種基于FPGA的實時聲音分類方法,本發明通過FPGA對聲音數據進行特征提取,獲得聲音數據的MFSC特征圖,然后利用CNN分類網絡對得到的MFSC特征圖進行計算,實現對所采集到的聲音進行分類的功能,可以隨時隨地、方便快捷地對外部聲音進行監測和分類。具有低功耗、低成本、便攜帶、實時性和多實用性等優點。
技術領域
本發明涉及聲音識別和處理領域,具體涉及一種基于FPGA的實時聲音分類方法及系統。
背景技術
聲音信號包含了豐富的信息,是人類感知環境的重要信息來源之一,也是反應人類行為的重要特征。同時聲音信號可以在視野外進行接收,而且不受光線的影響,其所需的存儲空間和后續的處理計算難度都要低于視頻信號,這使得聲音分類被廣泛應用在許多領域當中,包括導航、智能機器人、安全監控、聲音事件跟蹤定位、自然保護、公共安全等領域。
對于聲音分類,研究方向主要集中在聲音信號的特征提取和模式分類兩個方面,根據特征和分類模型的不同,形成不同的解決方案。現在有關聲音分類算法主要研究方向集中在理論算法實現方面,由于理論算法的復雜度較高而且計算量較大,所以一般在計算機上通過軟件方式進行實現。
目前聲音分類方法主要利用機器學習算法,即聲音特征提取+深度神經網絡的組合處理方式,其中聲音特征提取到的特征比較常用的為MFCC,深度神經網絡比較常用的為CNN。由于MFCC和CNN的計算復雜度較高,參數量較大,所以一般在CPU(或GPU)平臺進行實現,在CPU平臺進行實現時,網絡規模很大,對于實時性的要求不容易滿足,而且CPU平臺的功耗較高,成本較高,不利于便攜部署。
FPGA的優點是在設計過程中能夠提供極大的靈活性。根據不同的需求,設計人員可以通過編程的方式進行不同的系統設計,并且能夠動態配置更改。所以基于FPGA實現性能優良的小型化聲音分類系統對聲音分類的應用具有十分重要的意義。
發明內容
本發明所要解決的技術問題是:通過不同社區能源互聯網間的電能交易減少社區能源互聯網集群從配電網購電或售電的電量,促進風電就近消納,降低社區能源互聯網運行成本。本發明提供了解決上述問題的一種基于FPGA的實時聲音分類方法及系統,提出了新型能量交易機制及實施方案,使得現代電力系統能夠更好地支持各種分布式間歇性電源設備的接入,實現清潔能源、社區能源互聯網和配電網的友好互動。
本發明通過下述技術方案實現:
一種基于FPGA的實時聲音分類方法,包括如下步驟:
S1、獲取聲音數字數據;
S2、提取所獲取的聲音數字數據中的聲音特征,獲得聲音特征圖;
S3、獲取聲音特征圖進行分類計算,獲取聲音判斷概率;
S4、根據聲音判決最大的概率得到聲音的分類結果。
進一步的,聲音源的獲取通過麥克風,聲音數據通過麥克風進入FPGA模塊,獲取的聲音數字數據采樣率為22050Hz,以1.61s聲音數據為一塊進行處理。
進一步的,FPGA中聲音特征提取模塊對輸入的聲音數據進行特征提取,形成聲音特征圖,將聲音特征圖輸入分類網絡進行聲音種類的判斷分類,其中:
聲音的特征提取的方法為:
S21、對聲音數字數據進行分幀形成數據幀;
S22、對數據幀進行加窗,得到加窗之后的數據幀;
S23、對加窗之后的數據幀進行快速傅立葉變換,輸出兩路數據;
S24、將輸出的兩路數據中包含頻域信息的數據分別進行幅度計算,獲得聲音頻域幅度數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011239248.5/2.html,轉載請聲明來源鉆瓜專利網。





