[發明專利]基于多標簽糾正和時空協同融合的語音情感識別方法在審
| 申請號: | 202211628733.0 | 申請日: | 2022-12-18 |
| 公開(公告)號: | CN116403608A | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 甘臣權;王可欣;祝清意 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/30 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 糾正 時空 協同 融合 語音 情感 識別 方法 | ||
1.基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,構建包括時域模塊、空域模塊、協同融合模塊以及分類模塊的時空協同融合網絡,采用單標簽語音對該網絡進行預訓練優化,利用預訓練的時空協同融合網絡修改歧義語音的情感標簽,再混合標簽糾正后的歧義語音和單標簽語音,重新訓練優化時空協同融合網絡,完成優化的時空協同融合網絡對語音進行情感識別,過程具體包括以下步驟:
S1、根據語音頻譜的空間特性和語音波形的時序特性,利用卷積神經網絡和Wav2vec模型分別從語音的空間域和時間域提取情感特征,并采用協同融合方法實現時空特征交互,構成時空協同融合網絡;
S2、初始化時空協同融合網絡,將具有單個情感標簽的語音作為第一訓練集,用于預訓練時空協同融合網絡,將此得到的預訓練網絡稱為Mp;
S3、將歧義語音輸入完成預訓練的時空協同融合網絡Mp,預測得到輸入樣本的生成情感標簽;
S4、將歧義語音的生成情感標簽與原始多標簽結合進行標簽糾錯,得到具有糾正標簽的歧義語音樣本;
S5、將具有單個情感標簽的語音和具有糾正標簽的歧義語音作為第二訓練集,重新訓練優化時空協同融合網絡,并將該網絡稱為Mf;
其中,歧義語音是指具有多個情感標簽的語音樣本。
2.根據權利要求1所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,時空協同融合網絡包括:
101、在時域模塊,利用Wav2vec模型從語音信息的原始波形中獲取時間域情感特征;
102、在空域模塊,利用卷積神經網絡對語音消息的頻域進行處理,得到語音消息的空間域情感特征;
103、在協同融合模塊利用一個全連接層,將空間域情感特征轉換為空間情感權重,將空間情感權重與時間域情感特征相乘進行融合,得到附有空間情感信息的時間情感特征;
104、將附有空間情感信息的時間情感特征輸入分類模塊,得到情感分類結果。
3.根據權利要求1所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,將具有單個情感標簽的樣本作為第一訓練集,輸入時空協同融合網絡進行預訓練的損失函數表示為:
其中,N表示情感數據集的樣本總數量,為語音的單個情感標簽,表示預訓練時空協同融合網絡Mp的預測輸出,xi表示輸入網絡的第i個樣本。
4.根據權利要求3所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,語音的單個情感標簽表示為:
其中,表示情感數據集中第i個樣本是否存在第j個情感類別,N表示情感數據集的樣本總數量,K表示分類的情感類別數。
5.根據權利要求1所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,將具有單個情感標簽的樣本和具有糾正標簽的歧義樣本作為第二訓練集對時空協同融合網絡進行訓練時采用的損失函數表示為:
其中,N表示情感數據集的樣本總數量,表示糾正標簽,表示網絡Mf的預測輸出,xi表示輸入網絡的第i個樣本。
6.根據權利要求5所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,得到糾正標簽的過程包括:
其中,表示歧義樣本進行糾錯后得到的標簽,xi表示輸入網絡的第i個樣本,Mp表示預訓練的時空協同融合網絡;為歧義樣本的原始標簽;為預訓練時空協同融合網絡Mp的生成標簽,λ∈[0,1]表示平衡因子。
7.根據權利要求6所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,歧義樣本的原始標簽為多個獨熱向量相加所得的多標簽形式,表示為:
其中,表示表示情感數據集中第i個樣本是否存在第j種情感類別,N表示情感數據集的樣本總數量,K表示情感的類別數量。
8.根據權利要求6所述的基于多標簽糾正和時空協同融合的語音情感識別方法,其特征在于,生成標簽可分為多標簽和單標簽這兩種形式,多標簽形式的生成標簽為網絡Mp對輸入樣本xi的預測輸出,表示為:
單標簽形式的生成標簽需進一步從網絡Mp輸出的概率分布向量中選取概率最大的類別,以獨熱向量的形式表示為:
其中,表示預訓練時空協同融合網絡Mp的預測輸出的概率分布向量,xi表示輸入網絡的第i個樣本;j,k∈[1,K]為整數,表示的第k個情感類別的值,為的第j個情感類別的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211628733.0/1.html,轉載請聲明來源鉆瓜專利網。





