[發明專利]喚醒程度識別模型訓練方法及語音喚醒程度獲取方法在審
| 申請號: | 202110462278.0 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113192537A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 邵池;黃東延 | 申請(專利權)人: | 深圳市優必選科技股份有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G10L25/30;G10L15/06;G10L15/02;G10L15/08;G10L15/16 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 梁韜 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 喚醒 程度 識別 模型 訓練 方法 語音 獲取 | ||
本申請實施例提供了一種喚醒程度識別模型訓練方法及語音喚醒程度獲取方法,其中方法包括:獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強;提取所述樣本語音對應幀序列的特征矩陣;將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練。通過所提供的喚醒程度識別模型訓練方案,針對不同喚醒程度的樣本語音進行特征提取,并輸入到神經網絡中進行訓練,這樣即可得到能夠識別語音喚醒程度的喚醒程度識別模型。將喚醒程度識別模型應用于語音識別場景,在基礎語音識別的基礎上增加喚醒程度的識別,增強語音識別的準確性和多樣性。
技術領域
本發明涉及語音處理領域,尤其涉及一種喚醒程度識別模型訓練方法及語音喚醒程度獲取方法。
背景技術
在許多與醫療健康、教育和安全相關的場景中,情感識別成為現代人機交互系統不可或缺的一部分。在情感識別系統中,可以將語音、文本、視頻等作為單獨的輸入,也可以使用它們的組合作為多模態的輸入,本文主要關注基于語音的情感識別。通常,語音情感識別是采用經過切分的簡短語句以有監督的方式進行識別,情感的標簽可以采用兩種格式,即離散標簽,例如幸福,悲傷,憤怒和中性,或連續標簽,例如激活(鎮靜)對(喚起)、效價(負對正)和優勢(弱對強)。近年來,連續情緒屬性因在描述更復雜的情緒狀態方面更加靈活,而受到許多關注。連續屬性分類在語音情緒識別中有極其重要的作用,喚醒程度也影響了情感識別的速度和準確度,一般來講,喚醒程度越高,情感識別就越迅速,識別準確率也相應越高,通過預先識別喚醒程度也可以一定程度上提高語義情感識別的準確度。
可見,亟需一種能識別語音的連續情感中的喚醒程度高低的方法。
發明內容
為了解決上述技術問題,本發明實施例提供了一種喚醒程度識別模型訓練方法及語音喚醒程度獲取方法。
第一方面,本發明實施例提供了一種喚醒程度識別模型訓練方法,包括:
獲取樣本語音的喚醒程度標簽,并根據所述樣本語音的喚醒程度標簽對部分所述樣本語音進行數據增強;
提取所述樣本語音對應幀序列的特征矩陣;
將各類喚醒程度標簽對應幀序列的特征矩陣及對應的喚醒程度標簽輸入神經網絡進行訓練。
根據本公開的一種具體實施方式,所述獲取樣本語音的喚醒程度標簽的步驟,包括:
從預設數據集中,選取對應第一喚醒程度標簽的第一類樣本語音、對應第二喚醒程度標簽的第二類樣本語音和對應第三喚醒程度標簽的第三類樣本語音。
根據本公開的一種具體實施方式,所述獲取樣本語音的喚醒程度標簽的步驟,包括:
判斷各類喚醒程度標簽的樣本語音的數量之間的差值是否大于或者等于預設數量差值;
若各類喚醒程度標簽的樣本語音的數量之間的差值大于或者等于預設數量差值,對數量較少的樣本語音進行數據增強處理,直至各類喚醒程度標簽的樣本語音的數量之間的差值小于所述預設數量差值。
根據本公開的一種具體實施方式,所述對數量較少的樣本語音進行數據增強處理的步驟,包括:
為初始的樣本語音添加噪聲,得到擴增語音;
將初始的樣本語音和擴增語音相加后的語音作為用于訓練的樣本語音。
根據本公開的一種具體實施方式,所述為樣本語音添加噪聲,得到擴增語音的步驟,包括:
利用librosa庫加載所述樣本音頻,得到浮點型時間序列;
對浮點型時間序列S進行以下公式的計算,得到加噪后的擴增語音SNi,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市優必選科技股份有限公司,未經深圳市優必選科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110462278.0/2.html,轉載請聲明來源鉆瓜專利網。





