[發明專利]用于自語音中識別情感的方法與裝置有效
| 申請號: | 201711378503.2 | 申請日: | 2017-12-19 |
| 公開(公告)號: | CN108091323B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | C·C·多斯曼;B·N·利亞納蓋;T·J·M·厄斯特勒姆 | 申請(專利權)人: | 想象科技(北京)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/06;G10L25/24;G10L25/63 |
| 代理公司: | 北京律盟知識產權代理有限責任公司 11287 | 代理人: | 張世俊 |
| 地址: | 100025 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 語音 識別 情感 方法 裝置 | ||
本申請是關于自語音中識別情感的方法與裝置。根據本申請一實施例的用于自語音中識別情感的方法可包括:接收音頻信號、對所接收的音頻信號進行數據清理、將所清理的音頻信號分割成至少一段、對該至少一段執行特征提取以自該至少一段中提取若干梅爾頻率倒譜系數和若干巴克頻率倒譜系數、執行特征填充以基于長度門限將該若干梅爾頻率倒譜系數和若干巴克頻率倒譜系數填充至特征矩陣,以及對該特征矩陣執行機器學習推斷以識別在該音頻信號中所指示的情感。本申請實施例可適用于幾乎任何尺寸的音頻信號,且能實時識別整個語音的情感。
技術領域
本申請是關于情感識別技術,更具體的是關于自語音中識別情感的方法與裝置。
背景技術
人類間的語音溝通是非常復雜和微妙的,其不僅傳遞詞匯形式的信息,而且也傳遞人們當前的精神狀態。情感識別或理解發言人的精神狀態對很多應用是非常重要和有利的,這些應用包括游戲,人機互動界面及虛擬代理等。心理學家已經研究情感識別領域很多年并已經得出了很多的理論。而另一方面,機器學習研究者也已探索這一領域,并取得了情感狀態編碼在語音中的共識。
大多數現存在的語音系統可以有效處理演播室錄制的、神經系統的語音,但在情感類的語音處理方面則性能很差。目前最先進的情感檢測器在識別主要情感中的四至五類不同情感時僅有約40-50%的準確率。因此,情感類語音處理的問題還是語音識別方法和系統的有限功能,這可歸因于語音中呈現的情感的建模和特征化的困難。
綜上,語音識別方面的改進仍是重要和緊迫的,以有效和準確地識別發言者的情感狀態。
發明內容
本申請的目的之一是提供自語音中識別情感的方法和裝置。
根據本申請的一實施例,一用于自語音中識別情感的方法可包括:接收音頻信號、對所接收的音頻信號進行數據清理、將所清理的音頻信號分割成至少一段、對該至少一段執行特征提取以自該至少一段中提取若干梅爾頻率倒譜系數和若干巴克頻率倒譜系數、執行特征填充以基于長度門限將該若干梅爾頻率倒譜系數和若干巴克頻率倒譜系數填充至特征矩陣,以及對該特征矩陣執行機器學習推斷以識別在該音頻信號中所指示的情感。
在本申請的一實施例中,對所接收的音頻信號執行數據清理進一步包含以下步驟中的至少一者:移除該音頻信號中的噪音、基于沉默門限移除該音頻信號在開頭和結尾處的沉默,以及移除該音頻信號中較預定義門限短的聲音碎片。該沉默門限可為-50db,該預定義門限可為1/4秒。在本申請的另一實施例中,對所接收的音頻信號執行數據清理可進一步包括對所接收的音頻信號執行帶通濾波以控制該音頻信號的頻率為100-400kHz。
根據本申請的一實施例,對該至少一段執行特征提取進一步可包括自該音頻信號中提取發言者性別、響度、均一化頻譜包絡、功率譜分析、感性半寬度、情感方塊及音調系數中的至少一者。用于自該至少一段中的每一者中提取梅爾頻率倒譜系數和巴克頻率倒譜系數的窗口的尺寸可在10-500ms之間。
在本申請的另一實施例中,該長度門限不小于1秒。執行特征填充可進一步包含:確定該特征矩陣的長度是否達到該長度門限;當該特征矩陣的長度沒有達到該長度門限時,計算達到該長度門限所需增加至該特征矩陣的數據量;以及基于所計算的數據量,填充自后續段中提取的特征至該特征矩陣中以擴展該特征矩陣。根據本申請的一實施例,當該特征矩陣的長度沒有達到該長度門限時,基于所計算的數據量,復制該特征矩陣中的有效特征以擴展該特征矩陣。而且,該方法可進一步包含當該特征矩陣的長度達到該長度門限時跳出該執行特征填充。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于想象科技(北京)有限公司,未經想象科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711378503.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音合成器
- 下一篇:語氣識別方法、裝置、電子設備和計算機可讀存儲介質





