[發(fā)明專利]基于情感維度預測的離散語音情感識別方法、裝置及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710640201.1 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN107633851B | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設計)人: | 陶建華;黃健;李雅 | 申請(專利權)人: | 極限元(杭州)智能科技股份有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/45;G10L25/12;G10L25/24;G10L25/60;G10L15/08 |
| 代理公司: | 北京市恒有知識產(chǎn)權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 情感 維度 預測 離散 語音 識別 方法 裝置 系統(tǒng) | ||
本發(fā)明涉及情感計算領域,具體提出一種基于情感維度預測的離散語音情感識別方法、裝置及系統(tǒng)。旨在解決現(xiàn)有語音情感識別方法對情感狀態(tài)的識別難以滿足要求的問題。本發(fā)明的方法包括提取語音的基本聲學特征,將基本聲學特征組合為語音情感特征,并對語音情感特征進行加窗處理,得到全局語音情感特征后,預測得到情感維度信息,將全局語音情感特征與情感維度信息進行組合后,進行離散語音情感識別,得到語音情感識別結果。本發(fā)明將情感維度信息加入到全局語音情感特征中,增加了語音情感特征的維度,提高了離散語音情感識別的準確率。本發(fā)明還提出了一種基于情感維度預測的離散語音情感識別裝置和系統(tǒng),同樣具有上述有益效果。
技術領域
本發(fā)明涉及情感計算領域,具體提供一種基于情感維度預測的離散語音情感識別方法、裝置及系統(tǒng)。
背景技術
隨著人工智能的發(fā)展,情感計算的地位越顯重要,情感計算試圖賦予機器類人的觀察、理解和生成各種情感的能力,使機器具有情感,更加類人化。語音作為人類交流中重要的傳輸媒介,包含了大量的情感信息,語音情感識別可以很好地提升機器理解人類語音情感的能力,從而更加廣泛地應用于人機對話中,使人機交互更加自然和諧。
語音情感識別主要包括特征提取和分類器分類兩個步驟,目前,對于語音情感特征沒有統(tǒng)一的標準,通常的做法是將許多與音頻相關的特征組合在一起,例如韻律、頻譜和音質(zhì)特征,但是在不同的場景和數(shù)據(jù)庫中,與音頻相關的特征將發(fā)生改變。現(xiàn)有語音情感識別的方法主要包括利用情感維度模型或者離散情感模型來識別情感狀態(tài)。其中,情感維度模型是將情感狀態(tài)映射到一個連續(xù)的維度空間來描述細膩復雜的情感狀態(tài),但在實際應用中,難以直觀理解而且情感維度信息難以獲得;離散情感模型是將情感分成離散的情感標簽,例如高興、悲傷等,直觀簡單,但是離散情感模型能夠描述的情感類型較少,難以描述復雜的情感狀態(tài)。現(xiàn)有語音情感識別方法對情感狀態(tài)的識別難以滿足要求。
相應地,本領域需要一種新的語音情感識別方法來解決上述問題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術中的上述問題,即為了解決現(xiàn)有語音情感識別方法對情感狀態(tài)的識別難以滿足要求的問題,本發(fā)明的一方面提供了一種基于情感維度預測的離散語音情感識別方法,應用于語音情感識別系統(tǒng),包括:
提取語音的基本聲學特征,并將所述基本聲學特征組合為語音情感特征;
對所述語音情感特征進行加窗處理,得到全局語音情感特征;
根據(jù)所述全局語音情感特征,預測所述語音的情感維度信息,并將所述全局語音情感特征與所述情感維度信息進行組合,得到新的語音情感特征;
將所述新的語音情感特征輸入到分類器中進行離散語音情感識別,得到語音情感識別結果。
在上述方法的優(yōu)選方案中,所述提取語音的基本聲學特征,其方法為:
以幀為單位提取所述語音的基本聲學特征,其中,所述基本聲學特征包括能量、基頻以及共振峰。
在上述方法的優(yōu)選方案中,所述對所述語音情感特征進行加窗處理,得到全局語音情感特征,其方法為:
以長度為N的窗長對所述語音情感特征進行統(tǒng)計回歸,得到固定維度的全局語音情感特征,其中,N為不小于1的正整數(shù)。
在上述方法的優(yōu)選方案中,所述全局語音情感特征包括韻律、頻譜以及音質(zhì)。
在上述方法的優(yōu)選方案中,所述預測所述語音的情感維度信息,其方法為:
將所述全局語音情感特征輸入到隨機森林算法中進行計算,預測得到所述語音的情感維度信息。
在上述方法的優(yōu)選方案中,所述將所述全局語音情感特征與所述情感維度信息進行組合,其方法為:
將所述情感維度信息加入所述全局語音情感特征,增加所述全局語音情感特征的維度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于極限元(杭州)智能科技股份有限公司,未經(jīng)極限元(杭州)智能科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710640201.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





