[發明專利]基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法在審
| 申請號: | 201610024270.5 | 申請日: | 2016-01-14 |
| 公開(公告)號: | CN105719664A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 周鋒;孫冬生;王如剛;周六英 | 申請(專利權)人: | 鹽城工學院 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/27;G10L15/01;G10L15/02;G10L15/18 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 陳靜 |
| 地址: | 224051*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 概率 模糊 緊張狀態 語音 情緒 自動識別 方法 | ||
1.一種基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法,其特征在于,包括如下步驟:
(1)建立語音數據庫,所述語音數據庫包括緊張、喜悅和平靜的語音數據;
(2)從語音數據庫中提取語音情感特征,所述語音情感特征包括韻律情感特征和音質情感特征;
(3)采用fisher準則對語音情感特征進行特征評價,選擇識別特征;
(4)依據識別特征利用似然概率模糊熵判斷待識別樣本的情感類別,并在模糊熵超過閾值時拒判。
2.根據權利要求1所述的基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法,其特征在于,所述步驟(1)具體包括如下子步驟:
(1-1)被試對象分別錄制緊張、喜悅和平靜的語音片段;
(1-2)篩選出緊張、喜悅和平靜的語音數據。
3.根據權利要求1所述的基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法,其特征在于,步驟(2)中所述的韻律情感特征包括:短時能量的均值、最大值、最小值、中值、方差;短時能量差分的均值、最大值、最小值、中值、方差;基音的均值、最大值、最小值、中值、方差;基音一階差分的均值、最大值、最小值、中值、方差;基音二階差分的均值、最大值、最小值、中值、方差;基音范圍;發音幀數、不發音幀數、不發音幀數和發音幀數之比、發音幀數和總幀數之比、發音區域數、不發音區域數、發音區域數和不發音區域數之比、發音區域數和總區域數之比、最長發音區域數、最長不發音區域數。
4.根據權利要求1所述的基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法,其特征在于,步驟(2)中所述的音質情感特征包括:第一共振峰的均值、最大值、最小值、中值、方差;第二共振峰的均值、最大值、最小值、中值、方差;第三共振峰的均值、最大值、最小值、中值、方差;第一共振峰一階差分的均值、最大值、最小值、中值、方差;第二共振峰一階差分的均值、最大值、最小值、中值、方差;第三共振峰一階差分的均值、最大值、最小值、中值、方差;250Hz以下譜能量百分比、650Hz以下譜能量百分比、4kHz以上譜能量百分比;諧波噪聲比(HNR)的均值、最大值、最小值、中值、方差。
5.根據權利要求1所述的基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法,其特征在于,步驟(3)中所述的fisher準則對第d個維度具體表示為
其中μ為語音情感特征的特征值的均值,σ為語音情感特征的特征值的標準差,m為語音情感特征的類別的總數。
6.根據權利要求1所述的基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法,其特征在于,所述步驟(4)具體包括如下子步驟:
(4-1)采用GMM對緊張、喜悅和平靜三種情感進行建模,每種情感對應一個GMM模型,得到每種情感的p(xi|λj),通過最大后驗概率準則判決;xi表示第i條語句樣本,λj表示情感類別,最大后驗概率可以表示為:
待識別的樣本判決為:
其中,j*表示樣本所屬的類別;
(4-2)分別用緊張、喜悅和平靜的GMM似然概率密度值代表待識別樣本與緊張、喜悅和平靜情感類別的符合程度;當模糊熵超過閾值Th時則發生拒判:
其中,C為情感類別數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鹽城工學院,未經鹽城工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610024270.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有無線LAN功能的錄音重放裝置
- 下一篇:一種語音識別的方法及系統





