[發明專利]一種基于深度神經網絡的語音環境氣氛識別方法在審
| 申請號: | 202111070401.0 | 申請日: | 2021-09-13 |
| 公開(公告)號: | CN113903327A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 謝景帆 | 申請(專利權)人: | 北京卷心菜科技有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100015 北京市朝陽區酒*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 神經網絡 語音 環境 氣氛 識別 方法 | ||
1.一種基于深度神經網絡的語音環境氣氛識別方法,其特征在于包括以下模塊:
模塊1:獲取音頻信號并進行預處理;
將音頻信號進行預處理得到聲音數據;包括預加重、分幀、短時傅里葉變換;
將聲音數據進行切分依據語音段的切分時間,對音頻信號進行重采樣;并給予重采樣的結果進行語音特征抽取;借助文本情感語料庫對說話人id和相應說話文字內容進行處理,獲取到說話人的語義情感特征;依據語音特征和語義情感特征,給出當前氣氛識別結果;
模塊2:將模塊1輸出的聲音數據進行切分,得到各語段所屬說話人ID、語音段的起始時間和結束時間、文本內容;
模塊2的為一種深度神經網絡,該深度神經網絡具體參數通過訓練獲得;
訓練過程為:
2.1 獲取訓練數據集,
2.2 對訓練數據中,說話人、文本內容進行分段標注;標注內容為每一段的開始時間、結束時間、說話人、說話內容的文本
2.3 采用梯度下降方式進行擬合
使用過程中,將聲音數據輸入給訓練好的深度神經網絡模型,該模型給出對每個時間步的概率預測結果,即每個時間步所屬說話人的概率分布、說話內容的概率分布;
將聲音數據的全部時間步輸出綜合起來,按照說話人的連續說話進行切分,生成各段起始截止時間,各段的說話人、各段的文本內容;
模塊3:將模塊2輸出的語音段進行語音特征提取;
依據語音段的切分時間,對原始音頻信號進行重采樣;并給予重采樣的結果進行語音特征抽取;
模塊4:依據文本情感語料庫,將模塊2輸出的各個說話人的文本內容編碼為語義情感特征;
模塊4為具有記憶功能的時序神經網絡,記憶有一定時序限度內的情感特征;對于每一個說話人進行單獨運算;模塊3對最新文本內容進行分詞,去停用詞,依據文本情感語料庫將詞語轉換為情感特征;將情感特征輸入時序神經網絡,并獲取到最新的情感特征結果;
模塊5:依據模塊2和模塊3輸出的語音特征和情感特征,進行氣氛判斷;
氣氛使用一個實數值來進行度量;實數取值范圍為[0,1],0表示非常輕松,1表示非常緊張;
模塊5為一個卷積神經網絡和時序循環神經網絡相結合的深度神經網絡,將語音特征和情感特征輸入到模型中,通過卷積神經網絡抽取深層次特征,再將抽取出來的特征輸入到時序循環神經網絡,輸出對氣氛的預測結果;在訓練過程中通過這個數值和人工標記值的差距來進行梯度下降。
2.根據權利要求1所述的方法,其特征在于:
文本情感語料庫描述了在不同語境下,各個詞匯具有的不同的情感特征及相應強度;情感分類采用Parrott分類法,共115個類別;每個分類用長度為30的向量表示。
3.根據權利要求1所述的方法,其特征在于:
在重采樣時,采用4KHz,每幀窗口為60ms;
梅爾倒譜系數提取:
梅爾倒譜系數為26維度:12維倒譜系數、12維倒譜系數差分、1維能量和1維能量差分;
輸出矩陣的格式:
每段最大長度為6秒,每幀窗口為60ms,最大幀數為100;
輸出特征矩陣為 100 * 26 , 不足100幀,則補0。
4.根據權利要求1所述的方法,其特征在于:
對文本進行分詞,去除掉停用詞,對剩下的詞在文本情感語本實施料庫中進行查找;忽略不在語料庫中的詞;每段文字通常不超過30字;經過分詞、去除停用詞等操作后,有效詞一般不超過20個,如果超過,則拋棄;
將每個有效詞查找到的向量進行堆疊,形成一個20*30的二維矩陣;不足20個詞的補0。
5.根據權利要求1所述的方法,其特征在于:
模塊5中深度神經網絡的描述
整個網絡結構包括a) 針對音頻特征的卷積神經網絡b) 針對文本情感特征的卷積神經網絡 c) 時序循環神經網絡
4.1 針對音頻特征的卷積神經網絡
音頻特征的輸入為100 x 26的矩陣, 卷積核需要與輸入特征等寬;
具體卷積核尺寸如下:;
卷積核為: 5個1x26,5個2x26, 3個4x26, 3個8x26,3個16x26,1個32*26;
所有卷積核padding為1,步長為1,卷積核個數為20個;
對應k x 26的卷積核,輸出尺寸為(100-k +1) x 1,
使用同尺寸的最大池化,變為標量;
對全部20個卷積核輸出的標量進行拼接,得到尺寸為1 x 20 的向量E1;
此向量進行tanh激活層,結果為1 x 20 的向量E2;
4.2 針對文本情感特征的卷積神經網絡
文本情感特征的輸入為20 x 30的矩陣, 卷積核需要與輸入特征等寬;
具體卷積核尺寸如下:卷積核為: 5個1x30,5個2x30, 3個4x30, 3個8x30;
所有卷積核padding為1,步長為1,卷積核個數為16個;
對應k x 30的卷積核,輸出尺寸為(20-k +1) x 1,
使用同尺寸的最大池化,變為標量;
對全部16個卷積核輸出的標量進行拼接,得到尺寸為1 x 16 的向量F1;
此向量進行tanh激活層,結果為1 x 16 的向量F2;
4.3 聯合音頻特征和文本特征,計算氣氛
對上述向量E2、F2進行水平拼接,作為聯合特征;采用時序循環神經網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京卷心菜科技有限公司,未經北京卷心菜科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111070401.0/1.html,轉載請聲明來源鉆瓜專利網。





