[發(fā)明專利]基于多標簽糾正和時空協(xié)同融合的語音情感識別方法在審
| 申請?zhí)枺?/td> | 202211628733.0 | 申請日: | 2022-12-18 |
| 公開(公告)號: | CN116403608A | 公開(公告)日: | 2023-07-07 |
| 發(fā)明(設計)人: | 甘臣權;王可欣;祝清意 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/30 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 標簽 糾正 時空 協(xié)同 融合 語音 情感 識別 方法 | ||
本發(fā)明屬于人工智能領域,特別涉及一種基于多標簽糾正和時空協(xié)同融合的語音情感識別方法,構建包括時域模塊、空域模塊、協(xié)同融合模塊以及分類模塊的時空協(xié)同融合網絡,采用單標簽語音對該網絡進行預訓練優(yōu)化,利用預訓練的時空協(xié)同融合網絡修改歧義語音的情感標簽,再混合標簽糾正后的歧義語音和單標簽語音,重新訓練優(yōu)化時空協(xié)同融合網絡,完成優(yōu)化的時空協(xié)同融合網絡對語音進行情感識別;本發(fā)明聚焦于如何成功利用標簽具有歧義的語音樣本,實現(xiàn)了網絡從歧義語音中獲得情感信息,在訓練樣本數(shù)量緊缺的情況下,可提升現(xiàn)有樣本的利用率。
技術領域
本發(fā)明屬于人工智能領域,特別涉及一種基于多標簽糾正和時空協(xié)同融合的語音情感識別方法。
背景技術
語音是人類自然交流的主要媒介之一,不僅傳達了說話人的目的信息,還表現(xiàn)了說話人的情感狀態(tài)。利用計算機從語音中識別說話人情感狀態(tài)的過程被稱為語音情感識別。它是人機交互中的一項重要任務,可以幫助智能語音交互系統(tǒng)理解用戶的潛在意圖,為產品帶來更好的用戶體驗。比如呼叫中心的語音接聽助手,智慧家居的語音服務,智能駕駛的情感檢測系統(tǒng)、醫(yī)療保健的情感輔助治療等。隨著這些應用需求的高漲,語音情感識別引起了越來越多研究者的關注。
常見的語音情感識別是基于單標簽訓練的,即一條語音對應一個固定的真實標簽,代表該語音只包含了一種情感。然而,現(xiàn)實生活中大多數(shù)語音情感是模糊的,往往摻雜了多種情感,比如情感為傷心的語音表達中會夾雜著憤怒和失望的情感表現(xiàn)。此外,情感專家們可能會根據(jù)自身文化和個性的不同,而對模糊的情感呈現(xiàn)出不同的看法,即對情感感知具有主觀性。結合上述,以單標簽表示語音的真實情感,不僅缺乏情感的混合表達能力,還忽略了情感專家們對情感感知的主觀性。
注意到這些問題,基于多標簽的方法被提出,從標簽定義上表示出情感的模糊性和情感感知的主觀性。多標簽包含兩種類型,一種是計算情感專家對各類情感的投票比例來描述情感的模糊性,但這種固定的情感比例并不代表大多數(shù)人所認可的真正比例;另一種則不受比例限制,僅僅根據(jù)情感專家是否對此類情感投票來估計情感存在或缺失,但仍依賴于部分情感專家所賦予的情感認知,且不具有明確的情感偏向。
于是,一些更有效的模糊處理訓練方式繼而被開發(fā),比如聯(lián)合學習、元學習、情感輪廓提煉、多分類器交互等,旨在結合模型本身知識,以避免單標簽和多標簽方法依賴情感專家所賦予標簽的問題。然而,這些方法均只考慮了只具有單標簽的語音樣本,即可以得到大多數(shù)情感專家共識的樣本,沒有利用數(shù)據(jù)集中無標簽的語音樣本。然而,語音情感的模糊性主要體現(xiàn)于這些無標簽樣本中。因為無標簽樣本是由于情感專家對該語音的情感判斷無法達成共識造成的,這表明該樣本的情感模糊,導致人類難以辨認。并且,在實際環(huán)境中的語音并不是每一句都具有大多數(shù)認同的情感。因而,這些沒有利用無標簽語音樣本的方法,并沒有完全考慮到真正具有情感模糊性的語音樣本。
發(fā)明內容
有鑒于此,本發(fā)明提出一種基于多標簽糾正和時空協(xié)同融合的語音情感識別方法,構建包括時域模塊、空域模塊、協(xié)同融合模塊以及分類模塊的時空協(xié)同融合網絡,采用單標簽語音對該網絡進行預訓練優(yōu)化,利用預訓練的時空協(xié)同融合網絡修改歧義語音的情感標簽,再混合標簽糾正后的歧義語音和單標簽語音,重新訓練優(yōu)化時空協(xié)同融合網絡,完成優(yōu)化的時空協(xié)同融合網絡對語音進行情感識別,過程具體包括以下步驟:
S1、根據(jù)語音頻譜的空間特性和語音波形的時序特性,利用卷積神經網絡和Wav2vec模型分別從語音的空間域和時間域提取情感特征,并采用協(xié)同融合方法實現(xiàn)時空特征交互,構成時空協(xié)同融合網絡;
S2、初始化時空協(xié)同融合網絡,將具有單個情感標簽的語音作為第一訓練集,用于預訓練時空協(xié)同融合網絡,將此得到的預訓練網絡稱為Mp;
S3、將歧義語音輸入完成預訓練的時空協(xié)同融合網絡Mp,預測得到輸入樣本的生成情感標簽;
S4、將歧義語音的生成情感標簽與原始多標簽結合進行標簽糾錯,得到具有糾正標簽的歧義語音樣本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211628733.0/2.html,轉載請聲明來源鉆瓜專利網。
- 一種時空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識化時空對象表達數(shù)據(jù)庫建立方法
- 一種基于時空密度波與同步的大型時空數(shù)據(jù)聚類算法GRIDWAVE
- 時空數(shù)據(jù)的存儲方法、查詢方法及存儲裝置、查詢裝置
- 一種云環(huán)境下時空索引的構建方法、裝置及電子設備
- 面向工業(yè)4.0的時空大數(shù)據(jù)分布式存儲檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對碰撞方法和裝置
- 時空數(shù)據(jù)的異常檢測方法、裝置、電子設備和存儲介質
- 一種可直接捕獲時空相關性的時空數(shù)據(jù)預測方法
- 多維時空譜數(shù)據(jù)融合方法、裝置、電子設備和存儲介質





