[發(fā)明專利]一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法在審

申請?zhí)枺?/td>	202210182933.1	申請日：	2022-02-25
公開（公告）號：	CN114495971A	公開（公告）日：	2022-05-13
發(fā)明（設(shè)計）人：	李愷旭;魏震益;杜懷云	申請（專利權(quán)）人：	四川天中星航空科技有限公司
主分類號：	G10L21/0232	分類號：	G10L21/0232;G10L25/30
代理公司：	成都正德明志知識產(chǎn)權(quán)代理有限公司 51360	代理人：	楊木梅
地址：	610000 四川省***	國省代碼：	四川;51
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò) 語音增強(qiáng) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法，涉及語音信號處理領(lǐng)域，包括：通過語音傳感器采集語音數(shù)據(jù)，并通過FPGA對語音數(shù)據(jù)進(jìn)行傅里葉變換，得到語譜圖數(shù)據(jù)；采用FPGA的邏輯單元構(gòu)建R?CED神經(jīng)網(wǎng)絡(luò)，得到R?CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng)；通過R?CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng)對語譜圖數(shù)據(jù)進(jìn)行降噪；通過FPGA對降噪后的語譜圖數(shù)據(jù)進(jìn)行時域還原，得到語音增強(qiáng)數(shù)據(jù)。本發(fā)明基于嵌入式硬件平臺，通過FPGA構(gòu)建實現(xiàn)神經(jīng)網(wǎng)絡(luò)，充分利用FPGA數(shù)字邏輯門陣列的并行性，相對于基于GPU、CPU等處理器的神經(jīng)網(wǎng)絡(luò)運行方式，大大提高了處理速度，保障了語音增強(qiáng)處理的實時性。

技術(shù)領(lǐng)域

本發(fā)明涉及語音信號處理領(lǐng)域，具體涉及一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法。

背景技術(shù)

語音增強(qiáng)技術(shù)指當(dāng)純凈目標(biāo)語音信號在復(fù)雜環(huán)境中被一種或多種噪聲干擾甚至淹沒后，通過一定的降噪算法抑制和降低噪聲的影響，盡可能地將純凈目標(biāo)語音提取出來的技術(shù)。其被廣泛應(yīng)用于移動通信、人機(jī)交互、軍事通信等領(lǐng)域，用于消除和減弱各種噪聲帶來的負(fù)面影響。

隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展，語音處理設(shè)備朝著智能化、終端化的方向快速發(fā)展，語音增強(qiáng)技術(shù)被大量應(yīng)用于硬件平臺。但是，物聯(lián)網(wǎng)技術(shù)中的云計算模型，由于大量使用網(wǎng)絡(luò)帶寬，且不能實時反饋的原因，不適用與終端設(shè)備。為補(bǔ)充云計算的劣勢，邊緣計算模式應(yīng)運而生。

邊緣計算選擇將運算任務(wù)分散到靠近數(shù)據(jù)源的輕量級設(shè)備中，在本地對部分?jǐn)?shù)據(jù)直接進(jìn)行采集和運算，實時反饋給用戶。而隨著半導(dǎo)體制造業(yè)工藝水平的提升，F(xiàn)PGA(FieldProgrammable Gate Array，F(xiàn)PGA)這類半定制集成電路芯片，以及片上系統(tǒng)SoC(system onchip，SoC)FPGA，為邊緣計算提供了應(yīng)用場景。雖然此類嵌入式設(shè)備具有本地采集、本地計算的優(yōu)勢，但其傳輸帶寬、存儲資源和計算資源的限制也阻礙了其大規(guī)模應(yīng)用的發(fā)展。

而現(xiàn)有語音增強(qiáng)算法，通常基于機(jī)器學(xué)習(xí)技術(shù)，例如生成對抗網(wǎng)絡(luò)(GenerativeAdversarial Networks，GAN)、自編碼器結(jié)構(gòu)的GAN和長短記憶(Long Short-Term Memory，LSTM)等網(wǎng)絡(luò)模型。這些算法大部分都采用了結(jié)構(gòu)各異且層數(shù)較深的神經(jīng)網(wǎng)絡(luò)模型，用較高的計算代價換取了部分性能的提升，導(dǎo)致這些復(fù)雜的神經(jīng)網(wǎng)絡(luò)，難以在資源有限的硬件平臺實現(xiàn)。

發(fā)明內(nèi)容

針對現(xiàn)有技術(shù)中的上述不足，本發(fā)明提供的一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法解決了目前基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)系統(tǒng)難以在資源有限的嵌入式硬件平臺上實現(xiàn)的問題。

為了達(dá)到上述發(fā)明目的，本發(fā)明采用的技術(shù)方案為：

一種采用嵌入式硬件運行神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法，包括以下步驟：

S1、通過語音傳感器采集語音數(shù)據(jù)，并通過FPGA對語音數(shù)據(jù)進(jìn)行傅里葉變換，得到語譜圖數(shù)據(jù)；

S2、采用FPGA的邏輯單元構(gòu)建R-CED神經(jīng)網(wǎng)絡(luò)，得到R-CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng)；

S3、通過R-CED神經(jīng)網(wǎng)絡(luò)數(shù)字邏輯子系統(tǒng)對語譜圖數(shù)據(jù)進(jìn)行降噪；

S4、通過FPGA對降噪后的語譜圖數(shù)據(jù)進(jìn)行時域還原，得到語音增強(qiáng)數(shù)據(jù)。

進(jìn)一步地，所述步驟S1中，通過Zynq7020型硬件平臺FPGA的可編程邏輯PL端對語音數(shù)據(jù)進(jìn)行傅里葉變換；

所述步驟S2中，采用Zynq7020型硬件平臺FPGA的可編程邏輯PL端內(nèi)的邏輯單元構(gòu)建R-CED神經(jīng)網(wǎng)絡(luò)；

所述步驟S4中，通過Zynq7020型硬件平臺FPGA的處理器系統(tǒng)PS端對降噪后的語譜圖數(shù)據(jù)進(jìn)行時域還原。

進(jìn)一步地，所述步驟S2包括以下分步驟：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川天中星航空科技有限公司，未經(jīng)四川天中星航空科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210182933.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質(zhì)量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】