[發(fā)明專利]基于語譜圖和膠囊網(wǎng)絡(luò)的混合語音情感分類方法在審
| 申請?zhí)枺?/td> | 202011451537.1 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112562725A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計)人: | 張衛(wèi);賈宇;羅翠線 | 申請(專利權(quán))人: | 山西財經(jīng)大學(xué) |
| 主分類號: | G10L25/18 | 分類號: | G10L25/18;G10L25/21;G10L25/24;G10L25/27;G10L25/63;G06K9/00;G06N3/04 |
| 代理公司: | 太原申立德知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 14115 | 代理人: | 程園園 |
| 地址: | 030006 山*** | 國省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語譜圖 膠囊 網(wǎng)絡(luò) 混合 語音 情感 分類 方法 | ||
本發(fā)明涉及語音信號處理領(lǐng)域,具體涉及基于語譜圖和膠囊網(wǎng)絡(luò)的混合語音情感分類方法。為解決不同語種差異性大,傳統(tǒng)識別方法尋找特征共性差的問題,本發(fā)明主要是將原始的語音數(shù)據(jù)通過預(yù)處理,轉(zhuǎn)化為語譜圖,再使用卷積神經(jīng)網(wǎng)絡(luò)和膠囊神經(jīng)網(wǎng)絡(luò)進(jìn)行更深層次的特征提取。最終達(dá)到獲得不同語種之間的共性特征,有效提高混合語音庫的情感分類識別準(zhǔn)確率的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號處理領(lǐng)域,具體涉及基于語譜圖和膠囊網(wǎng)絡(luò)的混合語音情感分類方法。
背景技術(shù)
語音是人與人交流的重要途徑,也是傳遞信息的重要媒介。通過機(jī)器分辨語音情感可以大大提升效率,節(jié)約人力成本,因此成為人工智能研究方向的一個重要分支。語音情感分類主要分為語音預(yù)處理、特征提取以及識別模型的構(gòu)建三部分。由于近些年設(shè)備的更新和深度學(xué)習(xí)技術(shù)的加強(qiáng),對于語音的情感識別準(zhǔn)確率有了進(jìn)一步的提升。卷積神經(jīng)網(wǎng)絡(luò)模型已經(jīng)廣泛應(yīng)用于圖像識別的問題當(dāng)中,也有很多語音情感的分類問題使用該方法,因為卷積神經(jīng)網(wǎng)絡(luò)可以通過卷積層提取更深度和抽象的語音情感特征,便于機(jī)器進(jìn)行分類。但是語音數(shù)據(jù)不同于圖像數(shù)據(jù),直接使用卷積神經(jīng)網(wǎng)絡(luò)會有無法充分利用語音處理時序信息、分類效果差、過擬合等技術(shù)問題。當(dāng)語種上升到兩種或更多的時候,由于不同語言之間具有較大的差異性。卷積神經(jīng)網(wǎng)絡(luò)更是無法尋求不同語種之間的共性,分類效果很不理想。
已經(jīng)有人提出了一種基于膠囊網(wǎng)絡(luò)的多任務(wù)語音分類方法,這種方法主要目的是尋求任務(wù)之間的相關(guān)性。但不同的語音特征對于不同的語音任務(wù)會有不同的分類效果,目前來講mfcc在各分類任務(wù)上都有較好的分類效果,如果想要繼續(xù)全面提升多任務(wù)分類效果,必須融合更多的特征。而本發(fā)明針對的主要問題是混合語種的情感單分類問題,將語音信號轉(zhuǎn)化為語譜圖。不同于普通的手工特征,語譜圖反映了語音頻譜隨時間變換的二維圖像。使用卷積網(wǎng)絡(luò)可以提取出包含時序信息、更完整的的有效特征。因此進(jìn)一步提高了情感分類的效果。
發(fā)明內(nèi)容
為解決不同語種差異性大,傳統(tǒng)識別方法尋找特征共性差的問題,本發(fā)明通過將不同語種的語音轉(zhuǎn)化為語譜圖,使用膠囊網(wǎng)絡(luò)進(jìn)行語音情感的分類。從語譜圖中提取深度的抽象特征,尋求不同語種之間的特征共性,提高混合語音庫情感分類的準(zhǔn)確率。
為了達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:
基于語譜圖和膠囊網(wǎng)絡(luò)的混合語音情感分類方法,將語音數(shù)據(jù)先轉(zhuǎn)化為語譜圖,并使用卷積網(wǎng)絡(luò)層和膠囊網(wǎng)絡(luò)層提取深度特征進(jìn)行情感分類,具體步驟如下:
步驟1,使用librosa包提取語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行長度歸一化,最后轉(zhuǎn)化為語譜圖;
步驟2,使用三層卷積神經(jīng)網(wǎng)絡(luò)提取語譜圖中的深層抽象特征;
步驟3,使用膠囊網(wǎng)絡(luò)對語譜圖提取出的深層抽象特征進(jìn)一步提取抽象表達(dá);
步驟4,膠囊網(wǎng)絡(luò)構(gòu)造邊緣損失函數(shù)對別每個膠囊的長度進(jìn)行不同情感的分類判別。
進(jìn)一步,所述步驟1使用librosa包提取語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行長度歸一化,最后轉(zhuǎn)化為語譜圖,具體步驟為:
步驟1.1,使用librosa包提取語音數(shù)據(jù)的音頻信號值;
步驟1.2,提取t秒的數(shù)據(jù),將長度小于t的音頻信號值進(jìn)行補(bǔ)0處理,長度大于等于t的則取[0,t]之間的數(shù)據(jù);
步驟1.3,使用librosa包計算梅爾頻譜,同時將獲得的梅爾頻譜值轉(zhuǎn)化為功率譜,再將功率譜進(jìn)行0~1歸一化并重新變形為二維數(shù)組,得到語音數(shù)據(jù)的語譜圖。
語譜圖中包含了大量有用信息,如語音基頻、清音、爆破音等。因此,相比于只有時域信息的過零率、幅值等和只有頻域特性的線性預(yù)測倒譜系數(shù)和梅爾頻率系數(shù)等特征,語譜圖能夠更好地用于語音情感分類。同時,將語音信號轉(zhuǎn)化為圖像,可以更好地發(fā)揮膠囊網(wǎng)絡(luò)的作用,從而提高識別率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山西財經(jīng)大學(xué),未經(jīng)山西財經(jīng)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011451537.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種音頻文件的分類方法及裝置
- 音頻數(shù)據(jù)處理方法及裝置、計算設(shè)備
- 一種語譜圖生成方法、系統(tǒng)及相關(guān)裝置
- 一種風(fēng)噪聲抑制方法、裝置及可讀存儲介質(zhì)
- 帕金森聲紋語譜圖樣本擴(kuò)充方法、裝置及計算機(jī)存儲介質(zhì)
- 語音數(shù)據(jù)處理方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種基于倒譜語譜圖的鳥類物種數(shù)量的獲取方法及系統(tǒng)
- 一種基于Matlab的語譜圖生成及顯示方法和裝置
- 語譜圖匹配方法、裝置、設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 一種結(jié)合CGAN譜圖去噪和雙邊濾波譜圖增強(qiáng)的語音情感識別方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





