[發(fā)明專利]情緒識別方法、裝置、計算機設備及存儲介質在審
| 申請?zhí)枺?/td> | 202011504934.0 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112669876A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設計)人: | 張展望;周超勇;劉玉宇 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/63 |
| 代理公司: | 深圳市世聯(lián)合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 情緒 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種情緒識別方法,其特征在于,包括下述步驟:
獲取待識別文件,所述待識別文件為視頻片段和/或音頻片段;
將所述待識別文件輸入到預設的特征提取模型進行特征提取,獲得所述待識別文件的特征;
將所述特征輸入到同時經情緒識別訓練和身份識別訓練的情緒身份識別模型中進行情緒預測,獲取所述情緒身份識別模型輸出的情緒預測結果;
根據所述情緒預測結果,確定所述待識別文件的情緒類別。
2.根據權利要求1所述的情緒識別方法,其特征在于,當所述待識別文件為視頻片段時,所述將所述待識別文件輸入到預設的特征提取模型進行特征提取,獲得所述待識別文件的特征的步驟具體包括:
將所述視頻片段輸入到預先訓練的圖像特征提取模型,獲得所述視頻片段的圖像特征;
所述情緒身份識別模型包含預先訓練的第一LSTM網絡和情緒預測結果輸出層,所述將所述特征輸入到同時經情緒識別訓練和身份識別訓練的情緒身份識別模型中進行情緒預測,獲取所述情緒身份識別模型輸出的情緒預測結果的步驟具體包括:
將所述圖像特征輸入到所述第一LSTM網絡,獲取所述視頻特征的時序圖像特征;
將所述時序圖像特征輸入到所述情緒預測結果輸出層,獲取所述情緒預測結果輸出層輸出的情緒預測識別結果。
3.根據權利要求2所述的情緒識別方法,其特征在于,所述情緒身份識別模型還包括身份預測結果輸出層,所述情緒身份識別模型的訓練包括下述步驟:
獲取訓練樣本,所述訓練樣本為標注有情緒類別和身份的N個視頻片段,N為大于0的正整數(shù);
將所述訓練樣本輸入到所述圖像特征提取網絡,獲得所述訓練樣本的N個圖像特征;
將所述N個圖像特征輸入到所述情緒身份識別模型中,獲得所述情緒預測結果輸出層輸出的N個情緒預測結果和所述身份預測結果輸出層輸出的N個身份預測結果;
通過第一損失函數(shù)比對所述N個情緒預測結果和所述N個身份預測結果與所述標注的情緒類別和身份識別是否一致,其中所述第一損失函數(shù)為:
L1=L1_vEmotion+L1_vFace
其中,L1_vEmotion為所述情緒預測結果的損失函數(shù),L1_vEmotion采用arcfaceloss,L1_vFace為所述身份預測結果的損失函數(shù),L1_vFace采用softmaxloss;
調整所述情緒身份識別模型中各節(jié)點的參數(shù),至所述第一損失函數(shù)達到最小值時結束,得到同時經情緒識別訓練和身份識別訓練的情緒身份識別模型。
4.根據權利要求1所述的情緒識別方法,其特征在于,當所述待識別文件為音頻片段時,所述將所述待識別文件輸入到預設的特征提取模型進行特征提取,獲得所述待識別文件的特征的步驟具體包括:
將所述音頻片段輸入到預設的音頻特征提取模型,獲得所述音頻片段的音頻特征;
所述情緒身份識別模型包含預先訓練的第一情緒身份特征提取網絡和情緒預測結果輸出層,所述將所述特征輸入到同時經情緒識別訓練和身份識別訓練的情緒身份識別模型中進行情緒預測,獲取所述情緒身份識別模型輸出的情緒預測結果的步驟具體包括:
將所述音頻特征輸入到所述第一情緒身份特征提取網絡,獲取所述音頻特征的情緒身份特征;
將所述情緒身份特征輸入到所述情緒預測結果輸出層,獲取所述情緒預測結果輸出層輸出的情緒預測識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011504934.0/1.html,轉載請聲明來源鉆瓜專利網。





