[發(fā)明專利]基于進(jìn)階式的語音深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法、裝置有效
| 申請?zhí)枺?/td> | 202210116109.6 | 申請日: | 2022-02-07 |
| 公開(公告)號: | CN114155883B | 公開(公告)日: | 2022-12-02 |
| 發(fā)明(設(shè)計)人: | 史慧宇;歐陽鵬 | 申請(專利權(quán))人: | 北京清微智能信息技術(shù)有限公司 |
| 主分類號: | G10L25/84 | 分類號: | G10L25/84;G10L25/30 |
| 代理公司: | 北京索睿邦知識產(chǎn)權(quán)代理有限公司 11679 | 代理人: | 朱玲 |
| 地址: | 100176 北京市大興區(qū)北京經(jīng)濟(jì)技*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 進(jìn)階 語音 深度 神經(jīng)網(wǎng)絡(luò) 訓(xùn)練 方法 裝置 | ||
本發(fā)明公開了一種基于進(jìn)階式的語音深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法、裝置、存儲介質(zhì)及電子裝置。其中,該基于進(jìn)階式的語音深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法包括:獲取混合語音樣本以及目標(biāo)樣本語音,其中,混合語音樣本包括目標(biāo)語音和噪音語音;將混合語音樣本輸入預(yù)設(shè)語音深度神經(jīng)網(wǎng)絡(luò)模型,得到預(yù)測目標(biāo)語音,其中,預(yù)設(shè)語音神經(jīng)網(wǎng)絡(luò)模型包括進(jìn)階式提取器、編碼器和重構(gòu)器,確定預(yù)設(shè)語音深度神經(jīng)網(wǎng)絡(luò)模型為目標(biāo)語音深度神經(jīng)網(wǎng)絡(luò)模型,基于本方案中訓(xùn)練的包括進(jìn)階式提取器、編碼器和重構(gòu)器的語音深度神經(jīng)網(wǎng)絡(luò),解決了現(xiàn)有技術(shù)中,無法有效的從混合語音中分離出目標(biāo)語音的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號處理相關(guān)領(lǐng)域,具體而言,涉及一種基于進(jìn)階式的語音深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法、裝置、存儲介質(zhì)及電子裝置。
背景技術(shù)
智能設(shè)備如智能音響、助聽器、智能耳機(jī)等已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。這些設(shè)備的快速發(fā)展得益于近些年語音交互技術(shù)的不斷提高。語音交互時,說話者常常會在場景復(fù)雜的情況說出口令,因此,說話人的語音通常會收到噪聲、混響或者其他說話人的干擾。若是不能及時的將這些背景噪聲或者重疊的說話聲去除,將嚴(yán)重影響后端的語音識別、語義識別或喚醒等應(yīng)用。因此確有必要將語音的提取和分離技術(shù)作為語音信號處理的研究重點(diǎn)。單通道語音分離技術(shù)是語音分離算法中研究和應(yīng)用最廣泛的技術(shù),相比于多通道語音分離任務(wù),他的優(yōu)點(diǎn)是硬件要求和成本較低,運(yùn)算量較小,但是缺點(diǎn)是算法設(shè)計難度更高,因?yàn)閱瓮ǖ勒Z音分離主要利用單個麥克風(fēng)采集的信號,借助目標(biāo)語音和干擾信號之間的時頻域聲學(xué)和統(tǒng)計特性的差異進(jìn)行建模。
近些年,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)的快速發(fā)展使得語音分離技術(shù)在這一領(lǐng)域得到廣泛的研究?;谏疃葘W(xué)習(xí)的語音分離方法的基本思想是:建立語音分離模型,從混合語音中提取特征參數(shù),然后通過網(wǎng)絡(luò)訓(xùn)練尋找特征參數(shù)與目標(biāo)語音信號的特征參數(shù)之間的映射關(guān)系,之后任意輸入的混合信號都可以通過訓(xùn)練后的模型輸出目標(biāo)語音的信號,從而達(dá)到語音分離的目的。端到端的時域和頻域的算法都開展了大量的研究工作,頻域中的算法有Deep Clustering,DANet,uPIT,Deep CASA等算法,時域中的算法有Conv-TasNet,BLSTM-TasNet,FurcaNeXt,wavesplit等。這些算法大多以純語音分離為平臺設(shè)計的算法,雖然分離效果不錯,但是當(dāng)這些算法應(yīng)用在復(fù)雜場景下時,分離準(zhǔn)確度大大衰減。然而真實(shí)的生活場景往往伴隨著背景噪聲、混響和其他說話人聲音等因素,若是研究語音的分離問題不可避免的要研究混合語音中包含較多干擾因素時,采取何種方法能使得算法更準(zhǔn)確、更高效。
針對上述的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種基于進(jìn)階式的語音深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法、裝置、存儲介質(zhì)及電子裝置,以至少解決現(xiàn)有技術(shù)中,無法有效的從混合語音中分離出目標(biāo)語音的技術(shù)問題。
根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種基于進(jìn)階式的語音深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,包括:獲取混合語音樣本以及目標(biāo)樣本語音,其中,所述混合語音樣本包括目標(biāo)語音和噪音語音;將所述混合語音樣本輸入預(yù)設(shè)語音深度神經(jīng)網(wǎng)絡(luò)模型,得到預(yù)測目標(biāo)語音,其中,所述預(yù)設(shè)語音深度神經(jīng)網(wǎng)絡(luò)模型包括進(jìn)階式提取器、重構(gòu)器和編碼器,所述編碼器用于對所述混合語音進(jìn)行特征提取,得到第一特征,所述進(jìn)階式提取器用于根據(jù)所述第一特征,計算得到高維映射關(guān)系特征,所述重構(gòu)器用于根據(jù)所述高維映射關(guān)系特征,得到所述混合語音樣本中的預(yù)測目標(biāo)語音;根據(jù)所述目標(biāo)樣本語音和所述預(yù)測目標(biāo)語音所確定的損失函數(shù)滿足預(yù)設(shè)條件,確定所述預(yù)設(shè)語音深度神經(jīng)網(wǎng)絡(luò)模型為目標(biāo)語音深度神經(jīng)網(wǎng)絡(luò)模型。
可選的,所述編碼器用于對所述混合語音進(jìn)行特征提取,得到第一特征,包括:將所述混合語音樣本輸入到所述預(yù)設(shè)語音深度神經(jīng)網(wǎng)絡(luò)模型中,通過所述編碼器包括的兩層卷積網(wǎng)絡(luò)、ReLU激活函數(shù)和批歸一化處理,得到所述第一特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京清微智能信息技術(shù)有限公司,未經(jīng)北京清微智能信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210116109.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





