[發明專利]多模態情感識別方法有效
| 申請號: | 202110200140.3 | 申請日: | 2021-02-23 |
| 公開(公告)號: | CN112559835B | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 陶建華;孫立才;劉斌;柳雪飛 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 孫劍鋒;劉蔓莉 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態 情感 識別 方法 | ||
1.多模態情感識別方法,其特征在于,包括:
S1:輸入待測樣本的音頻文件、視頻文件及對應的文本文件,分別對所述音頻文件、視頻文件和文本文件進行特征提取,得到幀級別的音頻特征、幀級別的視頻特征和詞級別的文本特征;
S2:將所述幀級別的音頻特征、幀級別的視頻特征和詞級別的文本特征分別輸入到音頻特征編碼器、視頻特征編碼器和文本特征編碼器進行局部上下文建模,得到音頻編碼特征、視頻編碼特征和文本編碼特征;
將所述幀級別的音頻特征輸入到音頻特征編碼器進行局部上下文建模,得到音頻編碼特征的具體方法為:
對所述幀級別的音頻特征依次經過兩層的一維卷積網絡、一維池化網絡和一層的雙向長短時記憶網絡進行局部音頻上下文建模,得到音頻編碼特征;
將所述幀級別的視頻特征輸入到視頻特征編碼器進行局部上下文建模,得到視頻編碼特征的具體方法為:
對所述幀級別的視頻特征依次經過兩層的一維卷積網絡、一維池化網絡和一層的雙向長短時記憶網絡進行局部視頻上下文建模,得到視頻編碼特征;
一維卷積網絡和一維池化網絡的卷積核尺寸和步長均為3;
將所述詞級別的文本特征輸入到文本特征編碼器進行局部上下文建模,得到文本編碼特征的具體方法為:
對所述詞級別的文本特征經過一層的雙向長短時記憶網絡進行局部文本上下文建模,得到文本編碼特征;
S3:一方面將所述音頻編碼特征、視頻編碼特征和文本編碼特征分別經過各自的自注意力模塊對模態內的交互關系進行建模,得到,模態內特征,所述模態內特征包括:模態內音頻特征、模態內視頻特征和模態內文本特征;
將所述音頻編碼特征經過音頻自注意力模塊,對模態內的交互關系進行建模,得到模態內音頻特征的具體方法為:
將音頻編碼特征和正余弦波編碼的音頻固定位置特征相加,得到,音頻編碼位置特征;將所述音頻編碼位置特征依次輸入至音頻自注意力層和音頻前饋層中,對模態內交互關系進行建模得到模態內音頻特征;
自注意力模塊中的層數,其值可根據實際情況進行設置,常用范圍為1-4;
S4:另一方面將所述音頻編碼特征、視頻編碼特征和文本編碼特征進行兩兩排序組合輸入至跨模態注意力模塊對兩兩模態間的交互關系進行建模,得到,模態間特征,所述模態間特征包括:音頻-視頻交互特征、音頻-文本交互特征和視頻-文本交互特征;
S4-1:將音頻編碼特征和視頻編碼特征輸入到音頻-視頻跨模態注意力模塊中對音頻編碼特征和視頻編碼特征的模態間交互關系進行建模得到;
將音頻編碼特征和視頻編碼特征輸入到音頻-視頻跨模態注意力模塊中對音頻編碼特征和視頻編碼特征的模態間交互關系進行建模得到的具體步驟是:
S4-1-1:將音頻編碼特征輸入和蘊含位置信息的特征相加得到,將視頻編碼特征輸入和蘊含位置信息的特征相加得到;
其中,和用自然語言處理中Transformer模型使用的經過正余弦波編碼的固定位置特征;
S4-1-2:將和輸入至層的跨模態注意力層和前饋層中對音頻編碼特征和視頻編碼特征的模態間交互關系進行建模得到,;
其中,從,到,的計算過程如下:
其中,;
其中,表示層歸一化,表示跨模態注意力層,表示前饋層;
S4-1-3:將,二者在特征維上進行拼接即可得到,即;
S4-2:將音頻編碼特征和文本編碼特征輸入到音頻-文本跨模態注意力模塊中對音頻編碼特征和文本編碼特征間的模態間交互關系進行建模得到;
其中,將音頻編碼特征和文本編碼特征輸入到音頻-文本跨模態注意力模塊中對音頻編碼特征和文本編碼特征間的模態間交互關系進行建模得到的具體步驟是:
S4-2-1:將音頻編碼特征輸入和蘊含位置信息的特征相加得到,將文本編碼特征輸入和蘊含位置信息的特征相加得到;
其中,和用自然語言處理中Transformer模型使用的經過正余弦波編碼的固定位置特征;
S4-2-2:將和輸入至層的跨模態注意力層和前饋層中對音頻編碼特征和文本編碼特征間的模態間交互關系進行建模得到, ;
其中,從,到,,的計算過程如下:
其中,;
其中,表示層歸一化,表示跨模態注意力層,表示前饋層;
S4-2-3:將,二者在特征維上進行拼接即可得到,即;
S4-3:將視頻編碼特征和文本編碼特征輸入到視頻-文本跨模態注意力模塊中對視頻編碼特征和文本編碼特征間的模態間交互關系進行建模得到;
其中,將視頻編碼特征和文本編碼特征輸入到視頻-文本跨模態注意力模塊中對視頻編碼特征和文本編碼特征間的模態間交互關系進行建模得到的具體步驟是:
S4-3-1:將視頻編碼特征輸入和蘊含位置信息的特征相加得到,將文本編碼特征輸入和蘊含位置信息的特征相加得到;
其中,和用自然語言處理中Transformer模型使用的經過正余弦波編碼的固定位置特征;
S4-3-2:將和輸入至層的跨模態注意力層和前饋層中對視頻編碼特征和文本編碼特征間的模態間交互關系進行建模得到,;
其中說,從到的計算過程如下:
其中,;
其中,表示層歸一化,表示跨模態注意力層,表示前饋層;
S4-3-3:將, 二者在特征維上進行拼接即可得到,即;
S5:對所述模態內特征和所述模態間特征分別進行時序池化得到全局模態內特征,全局模態間特征;所述全局模態內特征包括:全局模態內音頻特征、全局模態內視頻特征和全局模態內文本特征;所述全局模態間特征包括:全局音頻-視頻交互特征、全局音頻-文本交互特征和全局視頻-文本交互特征;
S6:將所述全局模態內特征和所述全局模態間特征進行加權融合得到整個待測樣本的模態內特征表示和模態間特征表示,然后將所述模態內特征表示和模態間特征表示進行拼接,然后經過全連接網絡得到最終的情感分類結果;
將所述全局模態內特征進行加權融合的模態內加權融合系數的具體計算公式如下:
全局模態內音頻特征表示為、全局模態內視頻特征表示為和全局模態內文本特征表示為;
,
其中,
為模態內加權融合系數;
和為常數;
的具體形式為:tanh或者relu激活函數
將所述全局模態間特征進行加權融合的模態間加權融合系數的具體計算公式如下:
全局音頻-視頻交互特征、全局音頻-文本交互特征和全局視頻-文本交互特征;
,
其中,
為模態間加權融合系數;
和為常數;
的具體形式為:tanh或者relu激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110200140.3/1.html,轉載請聲明來源鉆瓜專利網。





