[發(fā)明專利]基于特征集融合的語音情感識別及評價方法有效
| 申請?zhí)枺?/td> | 202010563652.1 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111816212B | 公開(公告)日: | 2022-10-11 |
| 發(fā)明(設(shè)計)人: | 周后盤;夏鵬飛;周偉東 | 申請(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L15/06 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 征集 融合 語音 情感 識別 評價 方法 | ||
本發(fā)明公開了一種基于特征集融合的語音情感識別及評價方法,本發(fā)明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四種語音情感特征集,建立Stacking集成學(xué)習(xí)模型,通過Stacking的初級學(xué)習(xí)器融合四種語音特征集,并通過Stacking的次級學(xué)習(xí)器建立最終的語音情感識別模型。實驗結(jié)果表明在EMODB和RAVDESS這兩種常見的語音數(shù)據(jù)庫上,Stacking集成學(xué)習(xí)模型不僅關(guān)注單個語音情感特征集,同時可以融合不同語音情感特征集,進(jìn)而達(dá)到更好的情感識別效果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音情感識別方法,具體涉及一種基于特征集融合的語音情感識別及評價方法。
背景技術(shù)
語音作為情感的載體之一,包含了豐富的情感信息。在過去幾十年中語音情感識別的相關(guān)研究取得了巨大的進(jìn)步并在許多不同的研究領(lǐng)域都有著廣闊的前景。隨著計算機(jī)語音識別等技術(shù)的成熟以及相關(guān)研究不斷涌現(xiàn),語音情感識別開始更多地應(yīng)用到教育業(yè)、娛樂業(yè)、通訊業(yè)當(dāng)中,加強(qiáng)對語音情感、情緒的識別成為了下一代人工智能發(fā)展的重點,鑒于此開展針對語音情感識別的研究具有較強(qiáng)的理論價值和實用意義。
情感描述方式一般可分為離散和維度兩種形式。PAD三維空間情感模型是既簡單又被廣泛使用的維度情感描述模型,其中P代表愉悅度(Pleasure-Displeasure),表明了個體情感狀態(tài)的積極或消極特性;A代表激活度(Arousal-Nonarousal),表明了個體的神經(jīng)生理激活程度;D代表優(yōu)勢度(Dominance-Submissiveness),表明了個體對環(huán)境和他人的主觀控制狀態(tài)。
Stacking是一種集成學(xué)習(xí)模型,在stacking方法中,我們把個體學(xué)習(xí)器叫做初級學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器叫做次級學(xué)習(xí)器,次級學(xué)習(xí)器用于訓(xùn)練的數(shù)據(jù)叫做次級訓(xùn)練集。次級訓(xùn)練集是在訓(xùn)練集上用初級學(xué)習(xí)器得到的。
發(fā)明內(nèi)容
本發(fā)明針對目前語音情感識別中特征集單一、預(yù)測結(jié)果不精準(zhǔn)等問題,提出了一種基于特征集融合的語音情感識別及評價方法。通過Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四種不同的語音情感特征集,基于Stacking的初級學(xué)習(xí)器融合四種不同語音特征集,建立了不同語音情感特征集的關(guān)系,并通過Stacking的次級學(xué)習(xí)器建立最終的語音情感識別模型,進(jìn)而達(dá)到更好的情感識別效果。
基于特征集融合的語音情感識別及評價方法。實現(xiàn)包括以下步驟:
步驟一:從語音數(shù)據(jù)庫中讀取.wav語音文件,對語音文件預(yù)處理后提取N種語音特征集;
步驟二:建立Stacking學(xué)習(xí)模型;
通過初級學(xué)習(xí)器融合N種語音特征集,并建立Stacking學(xué)習(xí)模型的次級學(xué)習(xí)器,通過次級學(xué)習(xí)器對融合后的語音特征集做最終的語音情感識別預(yù)測;
將得到的語音特征集切分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),分別為Training Data、TestData;采用K折交叉驗證來切分訓(xùn)練數(shù)據(jù)得到Train1,Train2…Traink。此時初級學(xué)習(xí)器要做K次訓(xùn)練和預(yù)測。
使用訓(xùn)練數(shù)據(jù)中的Train2,Train3…Traink做為訓(xùn)練集Set1,Train1做為驗證集,基于訓(xùn)練集Set1訓(xùn)練初級學(xué)習(xí)器,預(yù)測得到驗證集Train1的預(yù)測結(jié)果Val1,同時預(yù)測得到測試集Test的預(yù)測結(jié)果Test1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010563652.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





