[發明專利]一種嵌入式語音情感識別方法及裝置有效

申請號：	201110358672.6	申請日：	2011-11-11
公開（公告）號：	CN102737629A	公開（公告）日：	2012-10-17
發明（設計）人：	黃永明;章國寶;董飛;祖暉;劉海彬;倪道宏	申請（專利權）人：	東南大學
主分類號：	G10L15/00	分類號：	G10L15/00;G10L15/06
代理公司：	南京天翼專利代理有限責任公司 32112	代理人：	湯志武
地址：	211189 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種嵌入式語音情感識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種嵌入式語音情感識別方法，其特征在于，包括以下步驟：

步驟1：接收待識別的情感語音片斷輸入；

步驟2：對待識別的情感語音片斷數字化以提供數字語音信號；

步驟3：對待識別的情感數字語音信號X(n)進行預處理，包括預加重、分幀、加窗、端點檢測：

步驟3.1：對待識別的情感數字語音信號X(n)按下面進行預加重：

式中α=0.9375，n表示待識別的情感數字語音離散點序號；

步驟3.2：采用交疊分段的方法進行分幀，前一幀與后一幀之間有交疊的部分，稱為幀移，此處幀移取7ms，即在11.025kHz采樣率下取80個點，每一幀長取23ms，即取256個點；

步驟3.3：選擇漢明窗對語音信號進行加窗處理，窗口函數如下：

式中n′表示每一幀數字語音離散點序號，N表示每一幀數字語音離散點點數，此處N＝256；

步驟3.4：采用公知的能量過零率雙門限判決法來完成端點檢測，即依據環境噪聲的能量和過零率都低于語音信號的短時能量和短時過零率的原則，首先用短時能量作第一級判別，然后在此基礎上再用短時過零率作第二級判別，計算出短時能量上限、下限和過零率門限的值，然后對每幀數據進行判斷，端點檢測后得到每一幀數字語音X(n′)；

步驟4：對經過預處理的數字語音提取語音特征參數，該特征參數為12維美爾頻率倒譜系數；

步驟5：將步驟4提取的語音特征參數輸入到已經訓練好的各說話人識別子模型中，來確定哪一個說話人識別子模型是該語音片斷的一個最佳匹配，根據?匹配的說話人識別子模型來選擇該模型對應的說話人；

步驟6：根據步驟5說話人的判定結果，從訓練好的說話人語音情感識別模型庫中選擇該說話人對應的語音情感識別模型；

步驟7：將步驟4提取語音特征參數輸入到步驟6選擇的語音情感識別子模型中，所述語音情感識別模型包括高興、生氣、悲傷、害怕、平靜五個已經訓練好的情感子模型，根據語音情感識別模型中的輸出結果來確定哪一種情感是該語音片斷的一個最佳匹配。

2.根據權利要求1所述的嵌入式語音情感識別方法，其特征是，步驟4中對經過預處理的數字語音提取語音特征參數采用如下方法：

步驟4.1：在時域信號X(n′)后增補0，使得增補0后的序列的長度為N′，使N′為2的整數次冪，然后經過離散傅立葉變換DFT后得到線性頻譜X(k)，轉換公式為：

步驟4.2：將上述線性頻譜X(k)通過美爾頻率濾波器組H_m(k)得到美爾頻譜，并通過對數能量的處理，得到對數頻譜S(m)，由線性頻譜X(k)到對數頻譜S(m)的總傳遞函數為：

其中對于有M個帶通濾波器的濾波器組，m=1,2,…，M，每個帶通濾波器的傳遞函數為：

步驟4.3：將上述對數頻譜S(m)經過離散余弦變換，變換到倒譜頻域，即得到美爾頻率倒譜系數c(n′)：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于東南大學，未經東南大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110358672.6/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]一種嵌入式語音情感識別方法及裝置有效

專利文獻下載