[發明專利]語音情緒識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010445602.3 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111681681A | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 王德勛;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L17/00;G10L17/02;G10L25/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 情緒 識別 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及人工智能技術,揭露了一種語音情緒識別方法,包括:接收語音數據,分割出所述語音數據的語音片段,并在所述語音片段中標記語音分割點;根據所述語音分割點,提取出所述語音片段的特征聲紋,生成特征聲紋集;對所述特征聲紋集中相同的特征聲紋進行融合,得到融合聲紋集;識別出所述融合聲紋集中融合聲紋對應的用戶信息,并將所述用戶信息標記至對應的融合聲紋中;利用預先訓練完成的語音情緒檢測模型對標記后的所述融合聲紋集進行語音情緒檢測,得到語音情緒檢測結果。本發明還涉及區塊鏈技術,所述語音片段可部署于區塊鏈節點中。本發明提升了語音情緒識別的識別能力。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于人工智能的語音情緒識別方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
近年來,基于神經網絡的音頻處理系統促進了語音情緒識別領域的快速發展,但要訓練一個在任意情況下能夠準確快速識別說話人情緒的模型并不是一件簡單的事情。與標準的監督學習分類任務不同的是,說話人情緒識別模型需要對新出現的說話人有著足夠魯棒的識別和分類性能,而在訓練的過程中卻無法囊括現實中各式各樣的說話人,這在很大程度上限制了語音情緒識別的識別能力。
發明內容
本發明提供一種語音情緒識別的方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提升語音情緒識別的識別能力。
為實現上述目的,本發明提供的一種語音情緒識別方法,包括:
接收語音數據,分割出所述語音數據的語音片段,并在所述語音片段中標記語音分割點;
根據所述語音分割點,提取出所述語音片段的特征聲紋,生成特征聲紋集;
對所述特征聲紋集中相同的特征聲紋進行融合,得到融合聲紋集;
識別出所述融合聲紋集中融合聲紋對應的用戶信息,并將所述用戶信息標記至對應的融合聲紋中;
利用預先訓練完成的語音情緒檢測模型對標記后的所述融合聲紋集進行語音情緒檢測,得到語音情緒檢測結果。
可選地,所述語音片段存儲于區塊鏈中,及所述分割出所述語音數據的語音片段包括:
獲取語音數據的語音信號,對所述語音信號進行分幀處理,得到所述語音信號的語音序列,計算所述語音序列的語音頻率,根據所述語音頻率,截取在預設范圍內的對應語音信號作為所述語音片段。
可選地,所述計算所述語音序列的語音頻率,包括:
利用下述方法計算所述語音序列的語音頻率:
其中,B(f)表示語音頻率,f表示語音序列的預期語音頻率。
可選地,所述根據所述語音分割點,提取出所述語音片段的特征聲紋,生成特征聲紋集,包括:
根據所述語音分割點,獲取對應語音片段的語音頻率,計算所述語音頻率的維度參數,根據所述維度參數生成所述標準語音數據的聲紋特征,根據所述聲紋特征得到所述特征聲紋集。
可選地,所述計算所述語音頻率的維度參數包括:
利用下述方法計算所述語音頻率的維度參數:
其中,d(n)表示語音頻率的維度參數,i表示語音頻率的幀率,n表示語音頻率的振幅,B(f)表示語音頻率,k表示當前語音幀與前后語音幀的線性組合。
可選地,所述識別出所述融合聲紋集中融合聲紋對應的用戶信息包括:
利用下述方法識別出所述融合聲紋集中融合聲紋對應的用戶信息:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010445602.3/2.html,轉載請聲明來源鉆瓜專利網。





