[發明專利]一種基于跨模態翻譯的屬性級多模態情感分類方法有效
| 申請號: | 202210836512.6 | 申請日: | 2022-07-15 |
| 公開(公告)號: | CN115186683B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 趙妍妍;楊浩;車萬翔;秦兵 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F18/2415;G06V40/16;G06V40/70 |
| 代理公司: | 哈爾濱市松花江聯合專利商標代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 跨模態 翻譯 屬性 級多模態 情感 分類 方法 | ||
1.一種基于跨模態翻譯的屬性級多模態情感分類方法,其特征在于包括以下步驟;
步驟一:獲取多模態社交媒體數據,所述多模態社交媒體數據包括目標評價屬性、英文文本以及單張圖片;
步驟二:基于多模態社交媒體數據中的單張圖片,識別并切分出圖片中的全部人臉,若圖片中含有人臉,則執行步驟三,若圖片中不含有人臉,則生成圖片人臉描述,并執行步驟十;
步驟三:獲取圖片中人臉的面部屬性信息;
步驟四:將圖片中人臉的面部屬性信息轉化為面部描述文本;
步驟五:判斷圖片中人臉為單張人臉或多張人臉,若為單張人臉,則根據面部描述文本生成圖片人臉描述,并執行步驟十,若為多張人臉,則將目標評價屬性與步驟四中的面部描述文本進行拼接后,得到句子,之后將句子進行編碼,得到文本向量表示;
步驟六:將多模態社交媒體數據中的單張圖片進行編碼,得到圖片向量表示;
步驟七:計算圖片向量表示與文本向量表示的余弦相似度,并選取余弦相似度最高的文本向量表示對應的面部描述文本;
步驟八:針對步驟七中得到的面部描述文本,僅保留表情預測信息以及目標評價屬性;
步驟九:將面部描述文本中表情預測信息以及目標評價屬性進行拼接,得到圖片人臉描述;
步驟十:基于多模態社交媒體數據中的單張圖片,生成關于圖片場景信息的中性文本描述;
步驟十一:將多模態社交媒體數據中的目標評價屬性與英文文本進行拼接,得到新句子,并將新句子分別與圖片人臉描述和關于圖片場景信息的中性文本描述進行拼接,并將拼接結果分別利用預訓練語言模型進行處理,得到包含人臉描述信息的句子表示和包含場景信息的句子表示;
步驟十二:將包含人臉描述信息的句子表示和包含場景信息的句子表示進行融合,得到多模態融合表示;
步驟十三:將多模態融合表示送入線性分類層得到對于目標評價屬性的情感分類預測結果;
所述步驟十二中將包含人臉描述信息的句子表示和包含場景信息的句子表示進行融合通過門控機制進行;
所述門控機制具體表示為:
p(y|H)=softmax(WH+b)
其中和分別代表兩個預訓練的語言模型輸出的句子級向量,WD∈R768×768、WC∈R768×768、W∈R768×3、bg∈R768和b∈R3是可學習的參數,gt為門控權值,H為多模態融合向量表示,σ是非線性變換函數tanh,softmax為多分類激活函數,p(y|H)代表對于情感極性y的條件預測概率。
2.根據權利要求1所述的一種基于跨模態翻譯的屬性級多模態情感分類方法,其特征在于所述識別并切分出圖像中的全部人臉通過面部識別模型DeepFace進行。
3.根據權利要求1所述的一種基于跨模態翻譯的屬性級多模態情感分類方法,其特征在于所述圖片中人臉的面部屬性信息通過DeepFace工具中人臉屬性預測模型得到。
4.根據權利要求3所述的一種基于跨模態翻譯的屬性級多模態情感分類方法,其特征在于所述面部屬性信息包括:年齡、人種、性別、表情預測信息及置信度;
其中,年齡為0~120的整數預測,性別為男女二分類預測,表情為憤怒、恐懼、中立、悲傷、厭惡、快樂和驚訝七分類預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210836512.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種貨物存取系統
- 下一篇:一種基于網絡安全的社區物流投遞系統





