[發明專利]一種基于神經網絡的語音情感識別方法有效
| 申請號: | 202110990439.3 | 申請日: | 2021-08-26 |
| 公開(公告)號: | CN113903362B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 張悅;黃逸軒 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/30;G06N3/0464;G06N3/0455;G06N3/048;G06F16/35;G06F40/279 |
| 代理公司: | 成都玖和知識產權代理事務所(普通合伙) 51238 | 代理人: | 胡琳梅 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 語音 情感 識別 方法 | ||
1.一種基于神經網絡的語音情感識別方法,其特征在于,包括下列步驟:
提取語音特征并送入卷積神經網絡,獲得卷積情感類別;
所述語音特征送入時延神經網絡,獲得時延情感類別;
識別語音文本并送入雙向編碼器預訓練模型,獲得文本情感類別;
模型融合獲得最終情感類別;
在模型融合獲得最終情感類別的過程中,權重1*CNN的softmax之后的概率值+權重2*ECAPA-TDNN的softmax之后的概率值+權重3*Bert的softmax之后的概率值=新的概率值,然后選取最大值對應的情感作為最終的情感類別,其中,權重1+權重2+權重3=1。
2.如權利要求1所述的基于神經網絡的語音情感識別方法,其特征在于,所述語音特征為目標語音信號的基于濾波器組的特征。
3.如權利要求2所述的基于神經網絡的語音情感識別方法,其特征在于,所述目標語音信號的情感特征分為高興、悲傷、中性和生氣四類,所述卷積情感類別、所述時延情感類別、所述文本情感類別和所述最終情感類別是四類中的任意一類。
4.如權利要求1所述的基于神經網絡的語音情感識別方法,其特征在于,在提取語音特征并送入卷積神經網絡,獲得卷積情感類別的過程中,所述卷積神經網絡自動提取所述語音特征包含的情感特征,再使用歸一化指數函數分類器獲得屬于每一類所述情感特征的概率值,選取最大概率值對應的情感特征作為卷積情感類別。
5.如權利要求1所述的基于神經網絡的語音情感識別方法,其特征在于,在所述語音特征送入時延神經網絡,獲得時延情感類別的過程中,所述時延神經網絡自動提取所述語音特征包含的情感特征,再使用歸一化指數函數分類器獲得屬于每一類所述情感特征的概率值,選取最大概率值對應的情感特征作為時延情感類別。
6.如權利要求2所述的基于神經網絡的語音情感識別方法,其特征在于,識別語音文本并送入雙向編碼器預訓練模型,獲得文本情感類別,包括下列步驟:
利用語音識別技術識別所述目標語音信號對應的文本,獲得語音文本;
將所述語音文本中文字映射為相應的標號,形成標號序列;
將所述標號序列送入雙向編碼器預訓練模型,提取文本包含的情感特征;
使用歸一化指數函數分類器獲得屬于每一類所述情感特征的概率值,選取最大概率值對應的情感特征作為文本情感類別。
7.如權利要求1所述的基于神經網絡的語音情感識別方法,其特征在于,在模型融合獲得最終情感類別的過程中,對所述卷積情感類別、所述時延情感類別和所述文本情感類別各自歸一化指數函數之后的概率值進行線性相加,選取最大值對應的情感特征作為最終情感類別。
8.如權利要求7所述的基于神經網絡的語音情感識別方法,其特征在于,進行所述線性相加的過程中,不同模型的權重值設置為相同或不相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110990439.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像拼接方法、裝置和電子設備
- 下一篇:一種單吊機吊裝超長風葉吊架





