[發(fā)明專利]一種基于語(yǔ)譜圖的語(yǔ)音情緒識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011439586.3 | 申請(qǐng)日: | 2020-12-10 |
| 公開(公告)號(hào): | CN112581979B | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 楊麗佳;舒坤賢 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G10L25/63 | 分類號(hào): | G10L25/63;G10L25/30;G10L25/03 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語(yǔ)譜圖 語(yǔ)音 情緒 識(shí)別 方法 | ||
本發(fā)明屬于人工智能、語(yǔ)音處理和情感計(jì)算領(lǐng)域,具體涉及一種基于語(yǔ)譜圖的語(yǔ)音情緒識(shí)別方法,該方法包括:實(shí)時(shí)獲取語(yǔ)音信號(hào),將語(yǔ)音信號(hào)轉(zhuǎn)化為語(yǔ)譜圖;將語(yǔ)譜圖輸入到訓(xùn)練好的語(yǔ)音情緒識(shí)別模型中,識(shí)別語(yǔ)音情緒;所述語(yǔ)音情緒識(shí)別模型包括基于注意力機(jī)制的殘差神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM;發(fā)明提出把神經(jīng)網(wǎng)絡(luò)和注意力模型結(jié)合在一起,可以更高效地學(xué)習(xí)到語(yǔ)譜圖中語(yǔ)音能量值的有效特征,以提高語(yǔ)音情緒識(shí)別的正確率。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能、語(yǔ)音處理和情感計(jì)算領(lǐng)域,具體涉及一種基于語(yǔ)譜圖的語(yǔ)音情緒識(shí)別方法。
背景技術(shù)
語(yǔ)音情感識(shí)別是情感計(jì)算的一個(gè)重要組成部分。隨著深度學(xué)習(xí)和人工智能的發(fā)展,情感識(shí)別在人機(jī)交互領(lǐng)域具有廣闊的應(yīng)用前景,已收到研究者的廣泛關(guān)注。1995年,美國(guó)麻省理工大學(xué)的Picard教授提出了情感計(jì)算的概念。2003年,中科院自動(dòng)化研究所等單位在北京主辦了第一屆中國(guó)情感計(jì)算及智能交互學(xué)術(shù)會(huì)議,2005年在北京主辦了首屆國(guó)際情感計(jì)算及智能交互學(xué)術(shù)會(huì)議,會(huì)議聚集了眾多國(guó)內(nèi)乃至國(guó)際上該領(lǐng)域的專家一起交流情感計(jì)算的看法。
Basu等人主要采用了梅爾頻率倒譜系數(shù)作為輸入特征,利用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的分類方法實(shí)現(xiàn)了接近80%的識(shí)別率。Yamada等研究了一種傳遞信息的情感模型,利用BP算法作為聲學(xué)模型識(shí)別基本的情感,包括悲傷、興奮、歡樂和憤怒,達(dá)到了70%的準(zhǔn)確率。王蔚、胡婷婷等人針對(duì)探索自然狀態(tài)和表演狀態(tài)下語(yǔ)音情感識(shí)別的差異,采用深度學(xué)習(xí)算法分析了IEMOCAP公用數(shù)據(jù)集,對(duì)自然狀態(tài)和表演狀態(tài)下的中性、憤怒、開心和悲傷等四類情緒語(yǔ)音數(shù)據(jù)進(jìn)行實(shí)驗(yàn),利用卷積神經(jīng)網(wǎng)絡(luò)CNN和混淆矩陣分析了兩種狀態(tài)下不同情緒之間的誤分率和相似性。王金華、應(yīng)娜等人以混合卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),改進(jìn)特征提取中的Itti模型,并提出通過特征約束條件提取標(biāo)定權(quán)重特征的約束擠壓和激勵(lì)網(wǎng)絡(luò)結(jié)構(gòu),把VGGnet和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)結(jié)合,進(jìn)一步提升了情感表征能力,提高了模型的泛化性。隨著計(jì)算機(jī)多媒體技術(shù)的發(fā)展,人機(jī)交互越來(lái)越受到許多人的關(guān)注,用計(jì)算機(jī)來(lái)實(shí)現(xiàn)語(yǔ)音情感識(shí)別成為了當(dāng)前的重要發(fā)展方向之一。
目前,將人工智能和深度學(xué)習(xí)結(jié)合起來(lái)應(yīng)用于語(yǔ)音情緒識(shí)別獲得了巨大進(jìn)展,但是在使用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)和單一神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和模型訓(xùn)練時(shí),由于數(shù)據(jù)集小,在進(jìn)行模型的選擇和建立時(shí)考慮的因素不夠全面,從而對(duì)語(yǔ)音情緒特征的提取存在不夠全面的問題,導(dǎo)致訓(xùn)練的模型不能準(zhǔn)確地對(duì)語(yǔ)音進(jìn)行情感分類。
發(fā)明內(nèi)容
為了解決以上現(xiàn)有技術(shù)存在的問題,本發(fā)明提出了一種一種基于語(yǔ)譜圖的語(yǔ)音情緒識(shí)別方法,該方法包括:實(shí)時(shí)獲取語(yǔ)音信號(hào),將語(yǔ)音信號(hào)轉(zhuǎn)化為語(yǔ)譜圖;將語(yǔ)譜圖輸入到訓(xùn)練好的語(yǔ)音情緒識(shí)別模型中,識(shí)別語(yǔ)音情緒;所述語(yǔ)音情緒識(shí)別模型包括基于注意力機(jī)制的殘差神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM;
訓(xùn)練基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型的過程包括:
訓(xùn)練語(yǔ)音情緒識(shí)別模型的過程包括:
S1:獲取原始語(yǔ)音信號(hào),將原始語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖;
S2:將所有的語(yǔ)譜圖進(jìn)行集合,將集合進(jìn)行分類得到訓(xùn)練集和測(cè)試集;
S3:將訓(xùn)練集中的數(shù)據(jù)中的語(yǔ)譜圖輸入到基于注意力機(jī)制的殘差神經(jīng)網(wǎng)絡(luò)中,提取語(yǔ)譜圖的加權(quán)時(shí)頻情感特征圖;
S4:將加權(quán)時(shí)頻情感特征圖輸入到長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)LSTM中提取時(shí)頻情感特征圖的時(shí)域特征,得到時(shí)域特征圖;
S5:采用歸一化指數(shù)函數(shù)softmax對(duì)時(shí)域特征圖進(jìn)行歸一化處理,得到情感分類結(jié)果;
S6:根據(jù)分類結(jié)果計(jì)算模型的損失函數(shù);
S7:將測(cè)試集數(shù)據(jù)輸入到模型中,不斷調(diào)整損失函數(shù)的參數(shù),當(dāng)損失函數(shù)最小時(shí),完成模型的測(cè)試。
優(yōu)選的,將語(yǔ)音信號(hào)轉(zhuǎn)化為語(yǔ)譜圖的過程包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011439586.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種音頻文件的分類方法及裝置
- 音頻數(shù)據(jù)處理方法及裝置、計(jì)算設(shè)備
- 一種語(yǔ)譜圖生成方法、系統(tǒng)及相關(guān)裝置
- 一種風(fēng)噪聲抑制方法、裝置及可讀存儲(chǔ)介質(zhì)
- 帕金森聲紋語(yǔ)譜圖樣本擴(kuò)充方法、裝置及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 語(yǔ)音數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于倒譜語(yǔ)譜圖的鳥類物種數(shù)量的獲取方法及系統(tǒng)
- 一種基于Matlab的語(yǔ)譜圖生成及顯示方法和裝置
- 語(yǔ)譜圖匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種結(jié)合CGAN譜圖去噪和雙邊濾波譜圖增強(qiáng)的語(yǔ)音情感識(shí)別方法
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 股市情緒的確定方法和裝置
- 網(wǎng)絡(luò)情緒的確定方法和裝置
- 品牌情緒的確定方法和裝置
- 一種人臉情緒的識(shí)別方法和識(shí)別裝置、計(jì)算機(jī)可讀介質(zhì)
- 文本情緒呈現(xiàn)方法、文本情緒呈現(xiàn)裝置以及存儲(chǔ)介質(zhì)
- 一種智能工程師情緒監(jiān)測(cè)系統(tǒng)
- 基于深度學(xué)習(xí)和腦機(jī)接口的情緒識(shí)別系統(tǒng)及應(yīng)用
- 一種分析用戶對(duì)話情緒方法、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)
- 一種識(shí)別用戶情緒的方法及相關(guān)裝置
- 一種情緒監(jiān)測(cè)裝置及方法





