[發(fā)明專利]具有多重注意機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語音情感識別方法在審
| 申請?zhí)枺?/td> | 202110695847.6 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113450830A | 公開(公告)日: | 2021-09-28 |
| 發(fā)明(設(shè)計)人: | 姜芃旭;梁瑞宇;趙力;徐新洲;陶華偉 | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/21;G10L25/24;G10L25/30 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 秦秋星 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 具有 多重 注意 機(jī)制 卷積 循環(huán) 神經(jīng)網(wǎng)絡(luò) 語音 情感 識別 方法 | ||
本發(fā)明公布了一種具有多重注意機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語音情感識別方法,包括:步驟1,提取譜圖特征和幀級特征。步驟2,譜圖特征輸送進(jìn)CNN模塊來學(xué)習(xí)特征中的時頻相關(guān)信息。步驟3,多頭自注意力層作用于CNN模塊來計算不同規(guī)模的全局特征下不同幀的權(quán)重,并融合CNN中不同深度的特征。步驟4,一個多維注意層作用于LSTM輸入的幀級特征來綜合考慮局部特征與全局特征的關(guān)系。步驟5,處理過的幀級特征輸送進(jìn)LSTM模型中來獲取特征中的時間信息。步驟6,一個融合層來總結(jié)不同模塊的輸出來增強(qiáng)模型性能。步驟7,利用Softmax分類器對不同情感進(jìn)行分類。本發(fā)明結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò),模塊內(nèi)部采用并行的連接結(jié)構(gòu)來同時處理特征,能夠有效的提升語音情感識別的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及語音情感識別技術(shù)領(lǐng)域,具體涉及一種具有多重注意機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語音情感識別方法。
背景技術(shù)
語言學(xué)研究的重點是挖掘語言中的潛在信息,表征說話者或聲音的狀態(tài)。作為副語言學(xué)中的一項情感任務(wù),語音情感識別可以從語音中學(xué)習(xí)情感的類別,這可以為智能人機(jī)交互提供幫助。最近的深度學(xué)習(xí)的相關(guān)研究為語音識別提供了更好地描述語音情感狀態(tài)的深度模型。最主要的深度學(xué)習(xí)模型之一是神經(jīng)網(wǎng)絡(luò),它通常用于從低階聲學(xué)特征中學(xué)習(xí)有區(qū)別的特征表示。此外,這些與情感相關(guān)的工作傾向于以卷積神經(jīng)網(wǎng)絡(luò)和基于長短時記憶的遞歸神經(jīng)網(wǎng)絡(luò)為中心,以挖掘語音中的局部信息。CNN經(jīng)常用于從頻譜特征中學(xué)習(xí)時頻信息,而LSTM主要用于提取語音時間序列的序列相關(guān)性。
盡管上述的神經(jīng)網(wǎng)絡(luò)模型在語言情感識別中得到了成功的應(yīng)用,但仍存在三個問題需要解決。首先,大多數(shù)現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型方法將完整的語音分割成分段,以滿足模型輸入定長的要求。在這個過程中,不完整的時間信息不可避免地導(dǎo)致情感細(xì)節(jié)的丟失。其次,大多數(shù)基于CNN的方法只將最后一個卷積層作為輸出,而沒有考慮含有高分辨率低級別信息的隱藏卷積層。第三,現(xiàn)有的基于LSTM的注意力層的語音情感研究通過設(shè)置連接在LSTM后端的注意層,在高級表征中對序列進(jìn)行加權(quán),排除了話語中幀級級特征的時間相關(guān)性。
發(fā)明內(nèi)容
技術(shù)問題:為了克服現(xiàn)有語音情感識別技術(shù)存在的一些問題,本發(fā)明公布了一種具有多重注意機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN-MA)的語音情感識別方法。
技術(shù)方案:一種具有多重注意機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的語音情感識別方法,包括如下步驟:
步驟A,提取譜圖特征和幀級特征分別作為模型不同模塊的輸入。然后,將這些特征分別輸入卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM),采用并行結(jié)構(gòu)同時獲取時頻信息和序列信。步驟B,譜圖特征輸送進(jìn)CNN來學(xué)習(xí)特征中的時頻相關(guān)信息。步驟C,多頭自注意力層(Multiple Self-Attention)作用于CNN模塊來計算不同規(guī)模的全局特征下不同幀的權(quán)重,并融合CNN中不同深度的特征。步驟D,一個多維注意層(Multi-DimensionalAttention)作用于LSTM輸入的幀級特征來綜合考慮局部特征與全局特征的關(guān)系。步驟E,處理好的幀級特征輸送進(jìn)LSTM模型中來獲取特征中的時間信息。步驟F,一個融合層來總結(jié)不同模塊的輸出來增強(qiáng)模型性能。步驟G,利用Softmax分類器對不同情感進(jìn)行分類。
優(yōu)選的,步驟A中提取譜圖特征的具體步驟包括:將語音進(jìn)行預(yù)加重,分幀,快速傅里葉變換后,將能量譜通過一組Mel尺度的三角形濾波器組,求出譜圖特征;然后求出每段譜圖特征的一階差分和二階差分;步驟A中提取幀級特征的具體步驟包括:每幀語音提取95維的低級描述子,其中包括梅爾頻率倒譜系數(shù)以及其一階導(dǎo),梅兒倒譜及其一階導(dǎo),光譜特征、譜平坦度、色譜、過零率和均方根。
優(yōu)選的,步驟B的具體步驟包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110695847.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測設(shè)備
- 一種考慮激勵機(jī)制電量電價彈性矩陣的耗電量估測方法
- 選擇區(qū)塊鏈共識機(jī)制的方法、裝置以及共識節(jié)點
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲設(shè)備糾錯方法及糾錯裝置
- 區(qū)塊鏈中共識機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





