[發明專利]一種基于FPGA平臺的聲音識別系統及方法在審
| 申請號: | 202111663019.0 | 申請日: | 2021-12-30 |
| 公開(公告)號: | CN114333779A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 肖卓凌;王智;張新辰;付宇飛 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/08;G10L19/26;G10L25/24;G10L25/27 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 代維凡 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 fpga 平臺 聲音 識別 系統 方法 | ||
1.一種基于FPGA平臺的聲音識別系統,其特征在于,包括相互連接的FPGA開發板和聲音輸入模塊;
其中,所述FPGA開發板包括聲音輸入預處理模塊、聲音MFSC提取模塊、CNN識別模塊、DMA模塊、DDR3、DDR Ctrl、數據緩存布控模塊、乒乓RAM、MFSC RAM、CNN輸入RAM和CNN輸出RAM;
所述聲音輸入模塊依次通過所述聲音輸入預處理模塊、乒乓RAM、聲音MFSC提取模塊和MFSC RAM與所述數據緩存布控模塊連接;所述數據緩存布控模塊還分別與所述DMA模塊、CNN輸入RAM和CNN輸出RAM連接,所述CNN識別模塊分別與所述DMA模塊、CNN輸入RAM和CNN輸出RAM連接,所述DMA模塊還分別與所述DDR Ctrl和DDR3連接;
所述聲音輸入模塊用于接收外部聲音,并轉換成數字聲音信號;所述聲音輸入預處理模塊用于將輸入的聲音數據進行處理,使其符合聲音MFSC提取模塊需要的格式;所述乒乓RAM用于存儲聲音輸入預處理模塊輸出的聲音數據;所述聲音MFSC提取模塊用于提取聲音數據中的MFSC數據;所述MFSC RAM用于存儲MFSC數據;所述數據緩存布控模塊用于暫存中間數據、MFSC數據和CNN的權重數據;所述CNN識別模塊用于讀取MFSC數據,完成聲音識別;所述CNN輸入RAM用于存儲CNN的權重數據和MFSC數據;所述CNN輸出RAM用于存儲CNN識別模塊生成的中間數據;所述DMA模塊用于控制DDR Ctrl搬運數據;所述DDR Ctrl用于搬運中間數據、MFSC數據和CNN的權重數據;所述DDR3用于存儲中間數據、MFSC數據和CNN的權重數據。
2.根據權利要求1所述的基于FPGA平臺的聲音識別系統,其特征在于,所述CNN輸入RAM包括第一輸入RAM、第二輸入RAM、第三輸入RAM、第四輸入RAM、第一權重RAM、第二權重RAM、第三權重RAM和第四權重RAM;
所述乒乓RAM包括RAM0和RAM1。
3.根據權利要求1所述的基于FPGA平臺的聲音識別系統,其特征在于,所述聲音輸入預處理模塊包括CTRL子模塊、ADC_READ子模塊和FIR子模塊、其中,所述CTRL子模塊分別與所述ADC_READ子模塊和FIR子模塊連接,所述ADC_READ子模塊還與所述FIR子模塊連接;所述FIR子模塊還與所述乒乓RAM連接;
所述CTRL子模塊包括依次連接的IIC_CTRL、FIR_CTRL和RAM_CTRL,所述RAM_CTRL還與所述乒乓RAM連接,所述FIR_CTRL還與所述FIR子模塊連接,所述IIC_CTRL還與所述聲音輸入模塊連接。
4.根據權利要求1所述的基于FPGA平臺的聲音識別系統,其特征在于,所述聲音MFSC提取模塊包括依次連接的聲音MFSC提取模塊狀態機、加窗子模塊、傅里葉子模塊、幅度計算子模塊、梅爾濾波子模塊、自然對數計算子模塊和第一填充子模塊;所述聲音MFSC提取模塊狀態機還與所述乒乓RAM連接,所述第一填充子模塊還與所述MFSC RAM連接;
所述梅爾濾波子模塊包括梅爾濾波器組和64個三角濾波器,其中,梅爾濾波器組的系數為16448。
5.根據權利要求1所述的基于FPGA平臺的聲音識別系統,其特征在于,所述CNN識別模塊包括相互連接的CNN識別模塊狀態機和多通道子模塊;其中,所述多通道子模塊包括第一通道~第四通道,所述第一通道~第四通道的結構相同,均包括卷積計算子模塊、累加子模塊、池化子模塊和第二填充子模塊。
6.一種基于FPGA平臺的聲音識別方法,其特征在于,包括以下步驟:
S1、通過聲音輸入模塊收集聲音數據,得到MFSC數據和CNN的權重數據;
S2、將MFSC數據和CNN的權重數據發送至CNN識別模塊,得到中間數據,并將中間數據發送至CNN輸出RAM;
S3、當CNN輸出RAM存儲滿后將中間數據發送至DDR3中,再通過DDR3將中間數據發送至CNN識別模塊;
S4、重復步驟S3,通過CNN識別模塊完成所有中間數據的計算,得到識別的聲音結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111663019.0/1.html,轉載請聲明來源鉆瓜專利網。





