[發明專利]語音情緒識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010445602.3 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111681681A | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 王德勛;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L17/00;G10L17/02;G10L25/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 情緒 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種語音情緒識別方法,其特征在于,所述方法包括:
接收語音數據,分割出所述語音數據的語音片段,并在所述語音片段中標記語音分割點;
根據所述語音分割點,提取出所述語音片段的特征聲紋,生成特征聲紋集;
對所述特征聲紋集中相同的特征聲紋進行融合,得到融合聲紋集;
識別出所述融合聲紋集中融合聲紋對應的用戶信息,并將所述用戶信息標記至對應的融合聲紋中;
利用預先訓練完成的語音情緒檢測模型對標記后的所述融合聲紋集進行語音情緒檢測,得到語音情緒檢測結果。
2.如權利要求1所述的語音情緒識別方法,其特征在于,所述語音片段存儲于區塊鏈中,及所述分割出所述語音數據的語音片段包括:
獲取語音數據的語音信號,對所述語音信號進行分幀處理,得到所述語音信號的語音序列,計算所述語音序列的語音頻率,根據所述語音頻率,截取在預設范圍內的對應語音信號作為所述語音片段。
3.如權利要求2所述的語音情緒識別方法,其特征在于,所述計算所述語音序列的語音頻率,包括:
利用下述方法計算所述語音序列的語音頻率:
其中,B(f)表示語音頻率,f表示語音序列的預期語音頻率。
4.如權利要求1所述的語音情緒識別方法,其特征在于,所述根據所述語音分割點,提取出所述語音片段的特征聲紋,生成特征聲紋集,包括:
根據所述語音分割點,獲取對應語音片段的語音頻率,計算所述語音頻率的維度參數,根據所述維度參數生成所述標準語音數據的聲紋特征,根據所述聲紋特征得到所述特征聲紋集。
5.如權利要求4所述的語音情緒識別方法,其特征在于,所述計算所述語音頻率的維度參數包括:
利用下述方法計算所述語音頻率的維度參數:
其中,d(n)表示語音頻率的維度參數,i表示語音頻率的幀率,n表示語音頻率的振幅,B(f)表示語音頻率,k表示當前語音幀與前后語音幀的線性組合。
6.如權利要求1所述的語音情緒識別方法,其特征在于,所述識別出所述融合聲紋集中融合聲紋對應的用戶信息包括:
利用下述方法識別出所述融合聲紋集中融合聲紋對應的用戶信息:
其中,p(X,Y,Z)表示融合聲紋集中融合聲紋對應的用戶信息、X表示融合聲紋集,Y表示用戶信息,Z表示用戶信息的變化,T表示用戶的數量,xt表示第t個用戶的融合聲紋,yt表示第t個用戶信息,xt-1表示第t-1個用戶的融合聲紋,yt-1表示第t-1個用戶信息。
7.如權利要求1至6中任意一項所述的語音情緒識別方法,其特征在于,所述語音情緒檢測模型包括輸入層、卷積層、池化層、全連接層以及輸出層;及所述語音情緒檢測模型的訓練過程包括:
通過所述輸入層接收所述預先收集的語音聲紋及對應的標簽;
通過所述卷積層對所述語音聲紋進行卷積操作,得到所述語音聲紋的特征向量;
利用所述池化層對所述特征向量進行池化操作,通過所述激活層的激活函數對池化后的所述特征向量進行計算,得到訓練值;
利用全連接層的損失函數計算所述訓練值和所述標簽的損失函數值,若所述損失函數值大于預設的閾值時,對所述語音情緒檢測模型的參數進行調整,直至所述損失函數值不大于所述預設的閾值時,得到所述預先訓練完成的語音情緒檢測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010445602.3/1.html,轉載請聲明來源鉆瓜專利網。





