[發(fā)明專利]一種基于模糊最近鄰算法的語音情感識(shí)別方法有效
| 申請?zhí)枺?/td> | 201710577204.5 | 申請日: | 2017-07-14 |
| 公開(公告)號(hào): | CN107492384B | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 袁家政;劉宏哲;龔靈杰 | 申請(專利權(quán))人: | 北京聯(lián)合大學(xué) |
| 主分類號(hào): | G10L25/63 | 分類號(hào): | G10L25/63;G10L25/33;G10L25/03 |
| 代理公司: | 北京馳納智財(cái)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11367 | 代理人: | 謝亮 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模糊 近鄰 算法 語音 情感 識(shí)別 方法 | ||
本發(fā)明提供一種基于模糊最近鄰算法的語音情感識(shí)別方法,包括以下步驟:按照定義提取每一個(gè)樣本的短時(shí)能量特征、基音頻率特征、過零率特征和短時(shí)平均幅值特征,組成四維的特征向量;計(jì)算每一種情感特征對于區(qū)分不同情感的貢獻(xiàn)度;以步驟1所述的方法提取測試樣本的四個(gè)相同的特征,組成四維的特征向量;根據(jù)歐式距離和步驟2中所計(jì)算出來的貢獻(xiàn)度加權(quán),計(jì)算訓(xùn)練樣本的特征向量和測試樣本的特征向量間的距離;對距離排序,并確定k個(gè)最近鄰的樣本的情感,根據(jù)個(gè)數(shù)多少分類;對于步驟5中的k個(gè)情感樣本,用FKNN方法進(jìn)行再分類。本發(fā)明能夠提高了語音情感識(shí)別的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號(hào)處理和模式識(shí)別的技術(shù)領(lǐng)域,特別是一種基于模糊最近鄰算法的語音情感識(shí)別方法。
背景技術(shù)
隨著信息技術(shù)的不斷發(fā)展,社會(huì)發(fā)展對情感計(jì)算提出了更高的要求。例如在人機(jī)交互方面,一個(gè)擁有情感能力的計(jì)算機(jī)能夠?qū)θ祟惽楦羞M(jìn)行獲取、分類、識(shí)別和響應(yīng),進(jìn)而幫助使用者獲得高效而又親切的感覺,并能有效減輕人們使用電腦的挫敗感,甚至能幫助人們理解自己和他人的情感世界。例如采用此類技術(shù)探測駕駛司機(jī)的精力是否集中、感受到的壓力水平等,并做出相應(yīng)反應(yīng)。此外,情感計(jì)算還能應(yīng)用在機(jī)器人、智能玩具、游戲、電子商務(wù)等相關(guān)產(chǎn)業(yè)中,以構(gòu)筑更加擬人化的風(fēng)格和更加逼真的場景。情感也反映了人類的心理健康情況,情感計(jì)算的應(yīng)用可以有效地幫助人們避免不良情緒,保持樂觀健康的心理。傳統(tǒng)的knn算法局限性很大,在獲取k值時(shí)只能獲取奇數(shù),受到很大的限制。
公開號(hào)為CN106469560A的專利文件公開了一種基于無監(jiān)督域適應(yīng)的語音情感識(shí)別方法,提出的模型包括:特征提取,情感標(biāo)簽預(yù)測,域標(biāo)簽預(yù)測。特征提取:首先將原始輸入數(shù)據(jù)分解成兩塊特征,情感判斷特征和情感無關(guān)特征,然后將情感判斷特征記性層次非線性轉(zhuǎn)換得到高層情感特征。將高層情感特征用于情感標(biāo)簽和域標(biāo)簽的預(yù)測。利用梯度湘江發(fā)對整個(gè)模型的參數(shù)進(jìn)行更新,得到特征提取層的各層權(quán)重,然后,進(jìn)行特征提取,源域有標(biāo)簽樣本通過訓(xùn)練好的特征提取層到高級(jí)情感特征。最后,進(jìn)行分類器SVM的訓(xùn)練,將源域有標(biāo)簽樣本的高層情感特征和相對應(yīng)的情感標(biāo)簽輸入到SVM中訓(xùn)練,訓(xùn)練好的SVM可用于目標(biāo)域測試樣本的分類。該方法雖然能夠解決訓(xùn)練樣本和測試樣本數(shù)據(jù)分布不同的問題,但是運(yùn)算復(fù)雜,極易出現(xiàn)錯(cuò)誤,而且對于高興和憤怒這兩種情感的區(qū)分并不是很到位。
發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,本發(fā)明提出了一種基于深度學(xué)習(xí)的手勢識(shí)別方法,分為訓(xùn)練階段和識(shí)別階段,在訓(xùn)練階段,首先對訓(xùn)練樣本的情感語音進(jìn)行預(yù)處理操作,主要是對語音進(jìn)行預(yù)加重、加窗、分幀等;然后提取語音情感特征參數(shù),短時(shí)平均能量、基音頻率、過零率和短時(shí)平均幅度。在識(shí)別階段,測試語音通過預(yù)處理、特征提取和特征分析后,輸入到FKNN分類器中進(jìn)行識(shí)別判決。
本發(fā)明提供一種基于模糊最近鄰算法的語音情感識(shí)別方法,包括以下步驟:
步驟1:按照定義提取每一個(gè)樣本的短時(shí)能量特征、基音頻率特征、過零率特征和短時(shí)平均幅值特征,組成四維的特征向量;
步驟2:計(jì)算每一種情感特征對于區(qū)分不同情感的貢獻(xiàn)度;
步驟3:以步驟1所述的方法提取測試樣本的四個(gè)相同的特征,組成四維的特征向量;
步驟4:根據(jù)歐式距離和步驟2中所計(jì)算出來的貢獻(xiàn)度加權(quán),計(jì)算訓(xùn)練樣本的特征向量和測試樣本的特征向量間的距離;
步驟5:對距離排序,并確定k個(gè)最近鄰的樣本的情感,根據(jù)個(gè)數(shù)多少分類;
步驟6:對于步驟5中的k個(gè)情感樣本,用FKNN方法進(jìn)行再分類。
優(yōu)選的是,所述短時(shí)能量特征的定義如下:
其中,En表示在信號(hào)的第n個(gè)點(diǎn)開始加窗函數(shù)時(shí)的短時(shí)能量;x(n)是語音信號(hào);ω(n)是窗函數(shù);N為窗長。
在上述任一方案中優(yōu)選的是,所述過零特征的定義如下:其中,sgn[.]是符號(hào)函數(shù),即
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京聯(lián)合大學(xué),未經(jīng)北京聯(lián)合大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710577204.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





