[發(fā)明專利]一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法在審
| 申請?zhí)枺?/td> | 202210182933.1 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114495971A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計)人: | 李愷旭;魏震益;杜懷云 | 申請(專利權(quán))人: | 四川天中星航空科技有限公司 |
| 主分類號: | G10L21/0232 | 分類號: | G10L21/0232;G10L25/30 |
| 代理公司: | 成都正德明志知識產(chǎn)權(quán)代理有限公司 51360 | 代理人: | 楊木梅 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 采用 嵌入式 硬件 運行 神經(jīng)網(wǎng)絡(luò) 語音 增強(qiáng) 方法 | ||
本發(fā)明公開了一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法,涉及語音信號處理領(lǐng)域,包括:通過語音傳感器采集語音數(shù)據(jù),并通過FPGA對語音數(shù)據(jù)進(jìn)行傅里葉變換,得到語譜圖數(shù)據(jù);采用FPGA的邏輯單元構(gòu)建R?CED神經(jīng)網(wǎng)絡(luò),得到R?CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng);通過R?CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng)對語譜圖數(shù)據(jù)進(jìn)行降噪;通過FPGA對降噪后的語譜圖數(shù)據(jù)進(jìn)行時域還原,得到語音增強(qiáng)數(shù)據(jù)。本發(fā)明基于嵌入式硬件平臺,通過FPGA構(gòu)建實現(xiàn)神經(jīng)網(wǎng)絡(luò),充分利用FPGA數(shù)字邏輯門陣列的并行性,相對于基于GPU、CPU等處理器的神經(jīng)網(wǎng)絡(luò)運行方式,大大提高了處理速度,保障了語音增強(qiáng)處理的實時性。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號處理領(lǐng)域,具體涉及一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法。
背景技術(shù)
語音增強(qiáng)技術(shù)指當(dāng)純凈目標(biāo)語音信號在復(fù)雜環(huán)境中被一種或多種噪聲干擾甚至淹沒后,通過一定的降噪算法抑制和降低噪聲的影響,盡可能地將純凈目標(biāo)語音提取出來的技術(shù)。其被廣泛應(yīng)用于移動通信、人機(jī)交互、軍事通信等領(lǐng)域,用于消除和減弱各種噪聲帶來的負(fù)面影響。
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,語音處理設(shè)備朝著智能化、終端化的方向快速發(fā)展,語音增強(qiáng)技術(shù)被大量應(yīng)用于硬件平臺。但是,物聯(lián)網(wǎng)技術(shù)中的云計算模型,由于大量使用網(wǎng)絡(luò)帶寬,且不能實時反饋的原因,不適用與終端設(shè)備。為補(bǔ)充云計算的劣勢,邊緣計算模式應(yīng)運而生。
邊緣計算選擇將運算任務(wù)分散到靠近數(shù)據(jù)源的輕量級設(shè)備中,在本地對部分?jǐn)?shù)據(jù)直接進(jìn)行采集和運算,實時反饋給用戶。而隨著半導(dǎo)體制造業(yè)工藝水平的提升,F(xiàn)PGA(FieldProgrammable Gate Array,F(xiàn)PGA)這類半定制集成電路芯片,以及片上系統(tǒng)SoC(system onchip,SoC)FPGA,為邊緣計算提供了應(yīng)用場景。雖然此類嵌入式設(shè)備具有本地采集、本地計算的優(yōu)勢,但其傳輸帶寬、存儲資源和計算資源的限制也阻礙了其大規(guī)模應(yīng)用的發(fā)展。
而現(xiàn)有語音增強(qiáng)算法,通常基于機(jī)器學(xué)習(xí)技術(shù),例如生成對抗網(wǎng)絡(luò)(GenerativeAdversarial Networks,GAN)、自編碼器結(jié)構(gòu)的GAN和長短記憶(Long Short-Term Memory,LSTM)等網(wǎng)絡(luò)模型。這些算法大部分都采用了結(jié)構(gòu)各異且層數(shù)較深的神經(jīng)網(wǎng)絡(luò)模型,用較高的計算代價換取了部分性能的提升,導(dǎo)致這些復(fù)雜的神經(jīng)網(wǎng)絡(luò),難以在資源有限的硬件平臺實現(xiàn)。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法解決了目前基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)系統(tǒng)難以在資源有限的嵌入式硬件平臺上實現(xiàn)的問題。
為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:
一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法,包括以下步驟:
S1、通過語音傳感器采集語音數(shù)據(jù),并通過FPGA對語音數(shù)據(jù)進(jìn)行傅里葉變換,得到語譜圖數(shù)據(jù);
S2、采用FPGA的邏輯單元構(gòu)建R-CED神經(jīng)網(wǎng)絡(luò),得到R-CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng);
S3、通過R-CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng)對語譜圖數(shù)據(jù)進(jìn)行降噪;
S4、通過FPGA對降噪后的語譜圖數(shù)據(jù)進(jìn)行時域還原,得到語音增強(qiáng)數(shù)據(jù)。
進(jìn)一步地,所述步驟S1中,通過Zynq7020型硬件平臺FPGA的可編程邏輯PL端對語音數(shù)據(jù)進(jìn)行傅里葉變換;
所述步驟S2中,采用Zynq7020型硬件平臺FPGA的可編程邏輯PL端內(nèi)的邏輯單元構(gòu)建R-CED神經(jīng)網(wǎng)絡(luò);
所述步驟S4中,通過Zynq7020型硬件平臺FPGA的處理器系統(tǒng)PS端對降噪后的語譜圖數(shù)據(jù)進(jìn)行時域還原。
進(jìn)一步地,所述步驟S2包括以下分步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川天中星航空科技有限公司,未經(jīng)四川天中星航空科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210182933.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





