[發明專利]基于三元損失的語音情感識別方法及系統有效
| 申請號: | 201810839374.0 | 申請日: | 2018-07-27 |
| 公開(公告)號: | CN109003625B | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 陶建華;黃健;李雅 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/30 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 三元 損失 語音 情感 識別 方法 系統 | ||
1.一種基于三元損失的語音情感識別方法,其特征在于包括:
對待測語音數據進行分幀處理,獲取特定長度的語音序列;
基于預設的情感時序編碼網絡并且根據所述語音序列進行時序編碼獲取所述語音序列對應的情感特征向量;
基于預設的語音情感分類器并且根據多個預設的真實情感類別預測所述情感特征向量對應的情感類別;
其中,所述情感時序編碼網絡為基于預設的語音數據樣本并且利用機器學習算法所構建的長短時記憶神經網絡模型;所述語音情感分類器為基于所述語音數據樣本并且利用機器學習算法所構建的支持向量機模型;
其中,在“基于預設的情感時序編碼網絡并且根據所述語音序列進行時序編碼獲取所述語音序列對應的情感特征向量”的步驟之前,所述方法還包括:根據所述語音數據樣本獲取多個三元語音樣本組;
根據所述三元語音樣本組并且按照下式所示的損失函數對所述情感時序編碼網絡進行網絡訓練:
L=L1+L2
其中,所述L1表示預設的三元組損失函數,所述L2表示預設的交叉熵損失函數;
其中,“對待測語音數據進行分幀,獲取特定長度的語音序列”的步驟包括:
按預設的時間閾值對所述待測語音數據進行分幀處理,獲取多個語音幀;
對所述語音幀的數量和預設的幀數閾值F進行比較并且根據比較結果和所述多個語音幀獲取所述語音序列,具體為:
若所述語音幀的數量等于所述幀數閾值F,則以所述多個語音幀作為語音序列;
若所述語音幀的數量大于所述幀數閾值F,則從所述多個語音幀中隨機選取中間部位的連續的F個語音幀作為語音序列;
若所述語音幀的數量小于所述幀數閾值F,則以所述多個語音幀作為一個數據整體,多次復制并拼接所述數據整體直至總的幀數大于所述幀數閾值F,并且從中隨機選取連續的F個語音幀作為語音序列,或者
多次復制并拼接每一個所述語音幀直至總的幀數大于所述幀數閾值F,并且從中隨機選取連續的F個語音幀作為語音序列,或者
多次復制并拼接所述待測語音數據的最后一個語音幀直至總的幀數等于所述幀數閾值F。
2.根據權利要求1所述的基于三元損失的語音情感識別方法,其特征在于,在“基于預設的情感時序編碼網絡并且根據所述語音序列進行時序編碼獲取所述語音序列對應的情感特征向量”的步驟之前,所述方法還包括:
所述三元語音樣本組包括第一語音數據樣本、第二語音數據樣本和第三語音數據樣本,并且所述第一語音數據樣本與第二語音數據樣本的情感類別相同以及所述第一語音數據樣本與第三語音數據樣本的情感類別不同;
所述L1如下式所示:
其中,所述“+”表示當所述“[]”中的值大于零時取該值為損失值,當所述“[]”中的值小于零時損失值為零;所述均是第i個三元語音樣本組中的第一語音數據樣本、第二語音數據樣本和第三語音數據樣本;所述N表示所述三元語音樣本組的數量;所述f(x)表示語音數據樣本x對應的情感特征向量,所述α表示預設的距離參數;
所述L2如下所示:
其中,所述yi表示預設的第i個真實情感類別標簽,所述表示所述yi的線性回歸處理后的值。
3.根據權利要求2所述的基于三元損失的語音情感識別方法,其特征在于,“根據所述語音數據樣本獲取多個三元語音樣本組”的步驟包括:
根據所述語音數據樣本并且按照下式所示的方法獲取三元語音樣本組:
其中,所述表示的2范數的平方,所述表示的2范數的平方。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810839374.0/1.html,轉載請聲明來源鉆瓜專利網。





