[發明專利]情緒識別方法、裝置及機器人有效
| 申請號: | 202210328824.6 | 申請日: | 2022-03-31 |
| 公開(公告)號: | CN114420169B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 代勤;趙超;薛東偉;胡明櫆 | 申請(專利權)人: | 北京沃豐時代數據科技有限公司 |
| 主分類號: | G10L25/63 | 分類號: | G10L25/63;G06V40/16;G06V10/774;G06V10/80;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 聶俊偉 |
| 地址: | 100160 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 情緒 識別 方法 裝置 機器人 | ||
1.一種情緒識別方法,其特征在于,包括:
獲取當前對話語句相關的第一音頻特征向量,將所述第一音頻特征向量輸入至音頻識別子模型,以根據所述音頻識別子模型的輸出,確定第一音頻嵌入向量;
獲取所述當前對話語句相關的第一詞向量,將所述第一詞向量輸入至文字識別子模型,以根據所述文字識別子模型的輸出,確定第一詞嵌入向量;
融合所述第一音頻嵌入向量和所述第一詞嵌入向量,生成第一融合特征向量;
基于所述第一融合特征向量,確定用戶的當前情緒識別結果;
在融合所述第一音頻嵌入向量和所述第一詞嵌入向量,生成第一融合特征向量之前,還包括:
獲取在采集所述當前對話語句時用戶的第一面部圖像,將所述第一面部圖像輸入至圖像識別子模型,以根據所述圖像識別子模型的輸出,確定第一圖像嵌入向量;
融合所述第一音頻嵌入向量、所述第一詞嵌入向量和所述第一圖像嵌入向量,生成第二融合特征向量;
基于所述第二融合特征向量,確定所述用戶的當前情緒識別結果;
在將所述第一音頻特征向量輸入至音頻識別子模型之前,還包括:
獲取第二音頻嵌入向量,所述第二音頻嵌入向量是將所述當前對話語句的前一對話語句相關的第二音頻特征向量輸入至所述音頻識別子模型后獲取到的;
融合所述第二音頻嵌入向量和所述第一音頻特征向量,生成第二音頻特征向量;
將所述第二音頻特征向量輸入至所述音頻識別子模型,以根據所述音頻識別子模型的輸出,確定第三音頻嵌入向量;
相應地,融合所述第三音頻嵌入向量和所述第一詞嵌入向量,生成第三融合特征向量,以基于所述第三融合特征向量,確定用戶的當前情緒識別結果;
或者,融合所述第三音頻嵌入向量、所述第一詞嵌入向量和所述第一圖像嵌入向量,生成第四融合特征向量,以基于所述第四融合特征向量,確定用戶的當前情緒識別結果;
在將所述第一詞向量輸入至文字識別子模型之前還包括:
獲取第二詞嵌入向量,所述第二詞嵌入向量是將所述當前對話語句的前一對話語句相關的第二詞向量輸入至所述文字識別子模型后獲取到的;
融合所述第二詞嵌入向量和所述第一詞向量,生成第二詞向量;
將所述第二詞向量輸入至所述文字識別子模型,以根據所述文字識別子模型的輸出,確定第三詞嵌入向量;
相應地,融合所述第三音頻嵌入向量和所述第三詞嵌入向量,生成第五融合特征向量,以基于所述第五融合特征向量,確定用戶的當前情緒識別結果;
或者,融合所述第三音頻嵌入向量、所述第三詞嵌入向量和所述第一圖像嵌入向量,生成第六融合特征向量,以基于所述第六融合特征向量,確定用戶的當前情緒識別結果;
在將所述第一面部圖像輸入至圖像識別子模型之前,還包括:
獲取第二圖像嵌入向量,所述第二圖像嵌入向量是將所述當前對話語句的前一對話語句相關的第二面部圖像,輸入至所述圖像識別子模型后獲取到的;
融合所述第二圖像嵌入向量和所述第一面部圖像,生成第二面部圖像;
將所述第二面部圖像輸入至所述圖像識別子模型,以根據所述圖像識別子模型的輸出,確定第三圖像嵌入向量;
相應地,融合所述第三音頻嵌入向量、所述第三詞嵌入向量和所述第三圖像嵌入向量,生成第七融合特征向量,以基于所述第七融合特征向量,確定用戶的當前情緒識別結果。
2.根據權利要求1所述的情緒識別方法,其特征在于,還包括:采集不同用戶的對話語句樣本,以及與每個所述對話語句樣本相關的面部圖像樣本;
分別為每個所述對話語句樣本和所述面部圖像樣本標注一個情緒識別標簽,以構建樣本訓練集;
將所述樣本訓練集中的對話語句樣本或面部圖像樣本,按照預設順序逐次對所述音頻識別子模型、所述文字識別子模型和所述圖像識別子模型進行訓練。
3.根據權利要求2所述的情緒識別方法,其特征在于,將所述樣本訓練集中的對話語句樣本或面部圖像樣本,按照預設順序逐次對所述音頻識別子模型、所述文字識別子模型和所述圖像識別子模型進行訓練之后,包括:
在每輪訓練之后,重新排布所述樣本訓練集中的對話語句樣本以及面部圖像樣本的順序,并利用重新排布后的樣本訓練集,重新對所述音頻識別子模型、所述文字識別子模型和所述圖像識別子模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃豐時代數據科技有限公司,未經北京沃豐時代數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210328824.6/1.html,轉載請聲明來源鉆瓜專利網。





