[發明專利]一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法在審
| 申請號: | 202110629472.3 | 申請日: | 2021-06-04 |
| 公開(公告)號: | CN113327588A | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 黃超;張毅;鄭凱 | 申請(專利權)人: | 重慶郵智機器人研究院有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L15/16;G10L25/63 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 401220 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聽覺 前端 基于 注意力 dcrnn 結合 語音 情感 識別 方法 | ||
1.一種聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法,其特征在于:包括以下步驟:
S1:利用聽覺系統對語音信號進行處理,提取出表征語音情感信息的基于時間調制信號的語譜圖;
S2:利用3DCNN模型從語譜圖中提取情感語音的光譜-時間特征;
S3:將3DCNN的輸出作為ARNN模型的輸入,通過ARNN提取光譜-時間特征的長期依賴關系,利用時間注意模型來捕捉每個話語中與情感相關的重要信息;
S4:在模型訓練過程中各自更新自身的參數使得損失最小,不斷迭代優化,使模型達到最優,使用驗證集對訓練后的模型進行10倍交叉驗證,交叉熵作為損失函數,用RMSProp算法對模型參數進行優化;
S5:使用驗證集對訓練后的模型驗證,調整模型的超參數,得到最終網絡模型,最后利用Softmax層進行語音情感分類。
2.根據權利要求1所述的聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法,其特征在于:所述步驟S1具體步驟如下:
S11:采用聽覺濾波器組將語音信號y(t)分解為聲音頻率分量,作為耳蝸聲音頻率分析儀對語音信號進行處理,其中第n個聲音頻率通道的輸出為:
sg(n,t)=gc(n,t)*y(t),1≤n≤N
其中,gc(n,t)是第n個信道的脈沖響應,t是時域中的樣本數,N是聽覺濾波器組中的通道數,*表示卷積操作;所述聽覺濾波器的中心頻率與其帶寬成正比,其特點為等效矩形帶寬(ERBN),公式如下:
其中,fn是第n個濾波器的中心頻率,Qear是大頻率下的漸近濾波器質量,Bmin是低頻率下的最小帶寬;所述聽覺濾波器的脈沖響應是伽瑪分布和正弦函數的乘積,公式如下:
其中,Ata1-1exp(-2πwfERBN(fn)t)是由伽瑪分布表示的振幅項,A、a1和wf分別是濾波器的振幅、濾波器順序和帶寬,c1ln(t)項是單調調頻項,是原始相位,ERBN(fn)是在中心頻率為fn時聽覺濾波器的帶寬;
S12:利用希爾伯特變換提取語音信號的時間包絡線,計算第n個通道信號的瞬時振幅se(n,t),se(n,t)是從sg(n,t)計算得出,公式如下:
式中,是一個復雜分析信號。
S13:利用調制濾波器組獲得頻譜-時間調制信號,使用第n個通道中的第m個調制濾波器獲得的頻譜-時間調制信號sm(n,m,t),其計算公式如下:
sm(n,m,t)=mf(m,t)*se(n,t),1≤n≤M
其中,mf(m,t)是調制濾波器組的脈沖響應,M是調制濾波器組中的通道數。
3.根據權利要求1所述的聽覺前端與基于注意力的3DCRNN結合的語音情感識別方法,其特征在于:步驟S2中所述3DCNN模型包括三個卷積層、三個池化層及一個Reshape層,每個卷積層后加入批規范(Batch Normalization,BN)層和ReLU激活函數層;
所述BN層對深度神經網絡中間層激活進行歸一化,引入兩個可學習參數γ和β:
一個批次中,BN是對每個特征而言的,有m個訓練樣本,j個維度,即j個神經元節點,對第j維進行規范化:
其中,是第i層第j維的線性計算結果,ε是為了防止方差為0的常數;
ReLU的計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵智機器人研究院有限公司,未經重慶郵智機器人研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110629472.3/1.html,轉載請聲明來源鉆瓜專利網。





