[發(fā)明專利]一種基于深度神經(jīng)網(wǎng)絡(luò)的多分類語音方法有效
| 申請?zhí)枺?/td> | 201710801016.6 | 申請日: | 2017-09-07 |
| 公開(公告)號: | CN107578775B | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 毛華;彭德中;章毅;曾煜妮 | 申請(專利權(quán))人: | 四川大學(xué) |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/02;G10L15/06;G10L15/20 |
| 代理公司: | 成都弘毅天承知識產(chǎn)權(quán)代理有限公司 51230 | 代理人: | 徐金瓊;劉東 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 神經(jīng)網(wǎng)絡(luò) 分類 語音 方法 | ||
本發(fā)明公開一種基于深度學(xué)習(xí)的多任務(wù)語音分類方法,涉及語音處理技術(shù)領(lǐng)域,包括如下步驟:S1:對語音數(shù)據(jù)進行時頻分析操作,得到相應(yīng)的語譜圖。S2:建立基于卷積神經(jīng)網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型,并將語譜圖作為網(wǎng)絡(luò)輸入,提取特征。S3:將提取的特征輸入到多個不同的softmax分類器,從而得到一個初始化的模型。S4:對語音樣本及對應(yīng)的多個標記進行數(shù)值化,并用此數(shù)據(jù)集訓(xùn)練初始化的模型,得到訓(xùn)練好的網(wǎng)絡(luò)模型。S5:將訓(xùn)練好的模型對未標記的語音數(shù)據(jù)行預(yù)測,得到分類的概率值,并且選擇較高概率值的類別作為分類結(jié)果。本發(fā)明解決了現(xiàn)有的音頻分類方法是針對任務(wù)單獨處理而忽略語音任務(wù)相關(guān)性,導(dǎo)致分類效率低的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及聲音信號處理技術(shù)領(lǐng)域,尤其涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的語音多分類方法。
背景技術(shù)
聲音為我們提供了很多關(guān)于聲音來源和周圍環(huán)境的信息。人類的聽覺系統(tǒng)能夠分離和識別復(fù)雜的聲音,如果一個機器可以執(zhí)行類似的功能(音頻分類和識別)是非常有用的,例如在噪音中的語音識別。音頻分類是模式識別的一個重要領(lǐng)域,并且已經(jīng)成功的應(yīng)用到了很多領(lǐng)域,例如專業(yè)教育和娛樂領(lǐng)域。近幾年,不同類別的音頻分類,例如口音識別,說話人識別,語音情感識別已經(jīng)有了很多成功的應(yīng)用。
然而,大部分音頻分類方法都是針對任務(wù)單獨處理,忽略了各任務(wù)之間的相互關(guān)聯(lián)。比如,口音識別任務(wù)和說話人識別通常被當(dāng)作單獨的兩個分類任務(wù)。但是事實上,對于同一條語音數(shù)據(jù),語音說話人一旦確認,其口音也將確定。于是,我們希望利用這種關(guān)系同時地提高兩種任務(wù)的分類效果。
近幾年深度學(xué)習(xí)引起了人工智能的高潮,由于深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)強大的抽象能力,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法已經(jīng)成功的應(yīng)用到語音信號處理等各個領(lǐng)域。在我們的工作中,卷積神經(jīng)網(wǎng)絡(luò)用來學(xué)習(xí)語音特征,提高了在多分類任務(wù)中的準確率。
語譜圖是一種詳細且準確的包含時間和頻率信息的語音表達。語譜圖的一般形式主要是三個維度:時間,頻率和用顏色表示的振幅。
發(fā)明內(nèi)容
本發(fā)明的目的在于:為解決現(xiàn)有的音頻分類方法是針對任務(wù)單獨處理而忽略語音任務(wù)相關(guān)性,導(dǎo)致分類效率低的問題。
本發(fā)明的技術(shù)方案如下:
一種基于深度學(xué)習(xí)的多任務(wù)語音分類方法,包括如下步驟:
S1:對語音數(shù)據(jù)進行時頻分析操作,得到相應(yīng)的語譜圖。
S2:建立基于卷積神經(jīng)網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型,并將語譜圖作為網(wǎng)絡(luò)輸入,提取特征。
S3:將提取的特征輸入到多個不同的softmax分類器,從而得到一個初始化的模型。
S4:對語音樣本及對應(yīng)的多個標記進行數(shù)值化,并用此數(shù)據(jù)集訓(xùn)練初始化的模型,得到訓(xùn)練好的網(wǎng)絡(luò)模型。
S5:將訓(xùn)練好的模型對未標記的語音數(shù)據(jù)行預(yù)測,得到分類的概率值,并且選擇較高概率值的類別作為分類結(jié)果。
進一步地,所述S2中,卷積神經(jīng)網(wǎng)絡(luò)的基本操作包含卷積操作和池化操作,卷積操作可用下述公式表示:
其中,M和N定義了卷積核的大小,i,j表示行數(shù)和列數(shù),用來定義像素點的位置,f是卷積核函數(shù),l∈(1,L)表示卷積神經(jīng)網(wǎng)絡(luò)的層數(shù),定義了l層的i行j列的特征,定義了l層的n行m的卷積核的參數(shù),b是相應(yīng)的偏置函數(shù),
公式(1)的含義為:輸入特征圖的不同部分與卷積核的乘積在卷積核函數(shù)的作用下得到新的特征圖,上述公式保證了特征提取與位置無關(guān),也就是輸入特征圖的一部分的統(tǒng)計特性與其他部分是一樣的。
卷積神經(jīng)網(wǎng)絡(luò)的池化操作可用下述公式表示:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710801016.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





