[發(fā)明專利]基于多分類器交互學(xué)習(xí)的語音情感識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011623065.3 | 申請(qǐng)日: | 2020-12-31 |
| 公開(公告)號(hào): | CN112837701B | 公開(公告)日: | 2022-12-27 |
| 發(fā)明(設(shè)計(jì))人: | 谷裕;梁雪峰;周穎;尹義飛;韓迎萍;姚龍山 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G10L25/63 | 分類號(hào): | G10L25/63;G06K9/62 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 王品華 |
| 地址: | 710071*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分類 交互 學(xué)習(xí) 語音 情感 識(shí)別 方法 | ||
本發(fā)明提出一種針對(duì)語音中的較為模糊情感的識(shí)別方法,主要解決現(xiàn)有技術(shù)中大多數(shù)語音數(shù)據(jù)為模糊數(shù)據(jù),情感識(shí)別準(zhǔn)確率低及人工注釋標(biāo)簽成本較高的問題。其實(shí)現(xiàn)方案是:1)通過少量具有精確標(biāo)簽的數(shù)據(jù)對(duì)五個(gè)分類器進(jìn)行初次訓(xùn)練得到五個(gè)模型,并用這五個(gè)模型為模糊數(shù)據(jù)構(gòu)造一個(gè)模糊標(biāo)簽;2)用具有模糊標(biāo)簽的數(shù)據(jù)二次訓(xùn)練五個(gè)模型,得到的訓(xùn)練好的五個(gè)情感分類模型;3)將少量無標(biāo)簽數(shù)據(jù)放入訓(xùn)練好的五個(gè)模型進(jìn)行語音情感識(shí)別,得到對(duì)憤怒、高興、平靜、恐慌和悲傷這五種情感分類判別的準(zhǔn)確率;4)選擇準(zhǔn)確率最高的結(jié)果作為數(shù)據(jù)標(biāo)簽為情感分類結(jié)果。本發(fā)明提高了模糊數(shù)據(jù)處理能力,識(shí)別準(zhǔn)確率高,成本低,可用于健康檢索、信息安全及機(jī)器人。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能技術(shù)領(lǐng)域,具體是涉及一種語音情感識(shí)別方法,可用于健康檢索、信息安全及機(jī)器人。
背景技術(shù)
情感識(shí)別ER是指計(jì)算機(jī)對(duì)從傳感器采集來的信號(hào)進(jìn)行分析和處理,從而得到人的情感狀態(tài)。情感識(shí)別具有非常廣闊的應(yīng)用前景,隨著情感識(shí)別的引入各行各業(yè)的服務(wù)質(zhì)量都將有很大的提升。目前情感識(shí)別技術(shù)已被逐步應(yīng)用于視頻劇情廣告推薦、視頻自動(dòng)編輯等,并且?guī)砹司薮蟮慕?jīng)濟(jì)價(jià)值。而語音情感識(shí)別SER是指從語音中信號(hào)中尋找情感內(nèi)容。從生理心理學(xué)角度,相比面部表情和身體姿態(tài)等人類行為,語音更能表達(dá)人類內(nèi)心潛在的情感,可以表達(dá)面部表情和身體姿態(tài)無法表達(dá)的潛在情感狀態(tài)。
關(guān)于語音情感識(shí)別方面的研究,主要包括語音接口、語言處理、語音分析,其在健康、檢索、機(jī)器人、安全以及其他相關(guān)領(lǐng)域有很大的應(yīng)用。人類和機(jī)器之間的最有效的互動(dòng)方式是語音,但目前最大的障礙是機(jī)器無法足夠的獲取和識(shí)別人類的語音信息。而語言情感識(shí)別是人類交流必不可少的一部分,因此語音情感識(shí)別SER目前也被看做能夠豐富下一代人工智能“情商”的重要研究領(lǐng)域。
由于通過語音情感識(shí)別的重要性,以及語音情感識(shí)別方式可以更好的預(yù)測(cè)出人內(nèi)心的潛在情感,因此語音情感識(shí)別長(zhǎng)期以來受到了大量的關(guān)注。但是正是因?yàn)檎Z音情感數(shù)據(jù)的模糊,因此識(shí)別的任務(wù)具有挑戰(zhàn)性,語音情感識(shí)別和合成方面進(jìn)展很慢。因而如何以更有效的方式利用語音數(shù)據(jù)進(jìn)行情感識(shí)別,如何提高情感識(shí)別的準(zhǔn)確率和一致性,仍然是當(dāng)前情感識(shí)別中的難點(diǎn)問題。
近年來,通過深度學(xué)習(xí)技術(shù)從語譜圖中提取特征已經(jīng)成為語音情感識(shí)別相關(guān)任務(wù)的一個(gè)新趨勢(shì),在性能上表現(xiàn)出了很強(qiáng)的競(jìng)爭(zhēng)力。自從第一次發(fā)表了成功地使用卷積神經(jīng)網(wǎng)絡(luò)CNN從語音信號(hào)中學(xué)習(xí)特征表征,一些研究人員就跟隨這一趨勢(shì),使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征表征。例如,2016年,Trigeorgis有學(xué)者使用端到端的學(xué)習(xí)算法,結(jié)合了CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,并且融入了長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM,實(shí)現(xiàn)了較高的識(shí)別效果。2019年,Dai等人提出了一種新的方法來解決模糊情緒分類問題,它結(jié)合了交叉熵?fù)p失和中心損失,并增強(qiáng)了辨別能力。2017年,Cumins等人提出了一種基于CNN的方法,它使用預(yù)訓(xùn)練的AlexNet提取深度譜特征,并使用線性支持向量機(jī)來解決分類任務(wù)。這些方法都是將語譜圖直接反饋到神經(jīng)網(wǎng)絡(luò)中完成與語音情感識(shí)別的相關(guān)任務(wù),這些方法的不足之處是他們都需要語音數(shù)據(jù)有精確標(biāo)簽,然而實(shí)際情況下大多數(shù)語音數(shù)據(jù)是沒有精確標(biāo)簽的,這些方法就不能取得很好的效果。
標(biāo)簽分布學(xué)習(xí)ldl是近年來提出的一種機(jī)器學(xué)習(xí)方法,已在多個(gè)領(lǐng)域得到應(yīng)用,它用標(biāo)簽分布代替數(shù)據(jù)的精確標(biāo)簽。例如,為了處理年齡相近時(shí)臉部表情的相似性,2013年,Geng等人最初提出了一種用年齡的標(biāo)簽分布來處理臉部年齡估計(jì)問題的低密度脂蛋白算法。2018年,Gao等人提出了一個(gè)端到端的學(xué)習(xí)結(jié)構(gòu),可以獲得特征學(xué)習(xí)階段和分類器階段的年齡標(biāo)簽分布。標(biāo)簽分布學(xué)習(xí)的使用不僅限于年齡估計(jì),而且在其他方面也得到了很好的應(yīng)用。2015年,Zhang等人利用標(biāo)簽分布學(xué)習(xí)設(shè)計(jì)了一種用于群體計(jì)數(shù)的公共視頻監(jiān)控算法。2019年,劉等人提出了一種標(biāo)簽分布學(xué)習(xí)算法,將照片分為廣角類型和窄角類型。這些方法雖說達(dá)到了最先進(jìn)的性能。但是它們的不足之處是不能給出數(shù)據(jù)合理的模糊標(biāo)簽,因?yàn)樗鼈兊臄?shù)據(jù)標(biāo)簽要么是手動(dòng)注釋的,要么是基于強(qiáng)大的假設(shè)。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)上述現(xiàn)有技術(shù)的不足,提出一種基于多分類器交互學(xué)習(xí)的語音情感識(shí)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011623065.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





