[發明專利]用于自語音中識別情感的方法與裝置有效
| 申請號: | 201711378503.2 | 申請日: | 2017-12-19 |
| 公開(公告)號: | CN108091323B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | C·C·多斯曼;B·N·利亞納蓋;T·J·M·厄斯特勒姆 | 申請(專利權)人: | 想象科技(北京)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/06;G10L25/24;G10L25/63 |
| 代理公司: | 北京律盟知識產權代理有限責任公司 11287 | 代理人: | 張世俊 |
| 地址: | 100025 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 語音 識別 情感 方法 裝置 | ||
1.一種用于自語音中識別情感的方法,所述方法包括:
接收音頻信號;
對所接收的音頻信號進行數據清理;
將所清理的音頻信號分割成至少一段;
對所述至少一段執行特征提取以自所述至少一段中提取若干梅爾頻率倒譜系數和若干巴克頻率倒譜系數;
執行特征填充以基于特征矩陣的長度門限將所述若干梅爾頻率倒譜系數和若干巴克頻率倒譜系數填充至所述特征矩陣;以及
對所述特征矩陣執行機器學習推斷以識別在所述音頻信號中所指示的情感。
2.根據權利要求1所述的方法,其中所述對所接收的音頻信號執行數據清理進一步包含以下步驟中的至少一者:
移除所述音頻信號中的噪音;
基于沉默門限移除所述音頻信號在開頭和結尾處的沉默;以及
移除所述音頻信號中較預定義門限短的聲音碎片。
3.根據權利要求2所述的方法,其中所述沉默門限為-50db。
4.根據權利要求2所述的方法,其中所述預定義門限為1/4秒。
5.根據權利要求1所述的方法,其中所述對所接收的音頻信號執行數據清理進一步包括對所接收的音頻信號執行帶通濾波以控制所述音頻信號的頻率為100-400kHz。
6.根據權利要求1所述的方法,其中所述對所述至少一段執行特征提取進一步包括自所述音頻信號中提取發言者性別、響度、均一化頻譜包絡、功率譜分析、感性半寬度、情感方塊及音調系數中的至少一者。
7.根據權利要求1所述的方法,其中用于自所述至少一段中的每一者中提取梅爾頻率倒譜系數和巴克頻率倒譜系數的窗口的尺寸在10-500ms之間。
8.根據權利要求1所述的方法,其中所述長度門限不小于1秒。
9.根據權利要求1所述的方法,其中所述執行特征填充進一步包含:
確定所述特征矩陣的長度是否達到所述長度門限;
當所述特征矩陣的長度沒有達到所述長度門限時,計算達到所述長度門限所需增加至所述特征矩陣的數據量;以及
基于所計算的數據量,填充自后續段中提取的特征至所述特征矩陣中以擴展所述特征矩陣。
10.根據權利要求1所述的方法,其中所述執行特征填充進一步包含:
確定所述特征矩陣的長度是否達到所述長度門限;
當所述特征矩陣的長度沒有達到所述長度門限時,計算達到所述長度門限所需增加至所述特征矩陣的數據量;以及
基于所計算的數據量,復制所述特征矩陣中的有效特征以擴展所述特征矩陣。
11.根據權利要求9或10所述的方法,其進一步包含當所述特征矩陣的長度達到所述長度門限時跳出所述執行特征填充。
12.根據權利要求1所述的方法,其中所述對所述特征矩陣執行機器學習推斷進一步包含均一化和縮放所述特征矩陣。
13.根據權利要求1所述的方法,其中所述對所述特征矩陣執行機器學習推斷進一步包含將所述特征矩陣饋送至機器學習模型。
14.根據權利要求13所述的方法,其中所述機器學習模型是神經網絡。
15.根據權利要求1所述的方法,其進一步包含訓練機器學習模型以執行所述機器學習推斷。
16.根據權利要求15所述的方法,其中所述訓練機器學習模型包含:
優化若干模型超參數;
自所優化的模型超參數中選擇一組模型超參數;以及
使用所選擇的該組模型超參數測量所述機器學習模型的性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于想象科技(北京)有限公司,未經想象科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711378503.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音合成器
- 下一篇:語氣識別方法、裝置、電子設備和計算機可讀存儲介質





