[發明專利]具有多重注意機制的卷積循環神經網絡的語音情感識別方法在審
| 申請號: | 202110695847.6 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113450830A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 姜芃旭;梁瑞宇;趙力;徐新洲;陶華偉 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/21;G10L25/24;G10L25/30 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 秦秋星 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具有 多重 注意 機制 卷積 循環 神經網絡 語音 情感 識別 方法 | ||
1.一種具有多重注意機制的卷積循環神經網絡的語音情感識別方法,其特征在于:包括以下步驟,
步驟A:提取語音中的譜圖特征和幀級特征;
步驟B:利用CNN來學習譜圖中的時頻相關信息;
步驟C:多頭自注意力層作用于CNN模塊來計算不同規模的全局特征下不同幀的權重,并融合CNN中不同深度的特征;
步驟D:一個多維注意層作用于幀級特征來綜合考慮局部特征與全局特征的關系;
步驟E:將處理好的幀級特征輸送進LSTM模型中來獲取特征中的時間信息;
步驟F:一個融合層來總結不同模塊的輸出來增強模型性能;
步驟G:利用softmax分類器對情感進行分類。
2.根據權利要求1所述的一種具有多重注意機制的卷積循環神經網絡的語音情感識別方法,其特征在于:步驟A中提取譜圖特征的具體步驟包括:將語音進行預加重,分幀,快速傅里葉變換后,將能量譜通過一組Mel尺度的三角形濾波器組,求出譜圖特征;然后求出每段譜圖特征的一階差分和二階差分;步驟A中提取幀級特征的具體步驟包括:每幀語音提取95維的低級描述子,其中包括梅爾頻率倒譜系數以及其一階導,梅兒倒譜及其一階導,光譜特征、譜平坦度、色譜、過零率和均方根。
3.根據權利要求2所述的一種具有多重注意機制的卷積循環神經網絡的語音情感識別方法,其特征在于:步驟B的具體步驟包括:
將步驟A中的譜圖特征及其一階差分和二階差分構成的三維譜圖特征輸送進CNN模塊中進行學習;對于CNN模塊,使用在ImageNet數據集上訓練的AlexNet作為初始模型,該模型一共有五個卷積層和三個池化層,刪除網絡中的全連擊層以更好的匹配多頭自注意力層;輸入的大小為227*227*3,第一層卷積層包含96個卷積核,大小為11×11,而第二層包含256個卷積核,大小為5×5;最后三個卷積層分別包含384、384和256個卷積核,大小為3×3。
4.根據權利要求3所述的一種具有多重注意機制的卷積循環神經網絡的語音情感識別方法,其特征在于:步驟C的具體步驟包括:
步驟C-1:將步驟B中CNN的三個池化層設置為自注意力層的輸入;在自注意力層中,首先將輸入進行降維:
Fn=σR(fn*Xn)
其中σR(·)表示ReLU激活函數,“*”為卷積運算,Xn為輸入,X1,X2,X3分別表示CNN中的第一個池化層,第二個池化層和第三個池化層;
步驟C-2:添加注意力單元來計算所有幀的相互依賴性,來獲得不同幀的權重
αn=Softmax(Vn·Un)
其中,Vn=σS(Fn·Wn+bn),T0是時間維度,W和U為權重,b為偏差,σS表示Sigmoid激活函數,Softmax表示Softmax操作;
步驟C-3:設置一個擁有1024個卷積核的1×1大小的卷積Gn,計算為:
N0表示輸入特征的特征維度,然后,在Gn上采用N0×1的最大池化操作:
步驟C-4:多頭自注意力層的輸出結合了所有的自相關層:
其中,On=Mn·αn∈R1024×1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110695847.6/1.html,轉載請聲明來源鉆瓜專利網。





