[發(fā)明專利]一種基于注意力機制的圖文情感識別方法在審
| 申請?zhí)枺?/td> | 202110992751.6 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113822340A | 公開(公告)日: | 2021-12-21 |
| 發(fā)明(設計)人: | 劉博;徐毓笑 | 申請(專利權)人: | 北京工業(yè)大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06F16/33 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 圖文 情感 識別 方法 | ||
1.一種基于注意力機制的圖文情感識別方法,其特征在于:該方法執(zhí)行步驟如下:
步驟1、對圖文評論數據進行預處理,轉化成輸入模型需要的數據格式;
步驟2、利用預訓練的模型對預處理后的文本特征、圖片數據進行初步的特征提取,得到文本特征、圖片特征;
步驟3、將步驟2得到的文本特征、圖片特征互相作為輔助信息,輸入到跨模態(tài)編碼層,利用交叉注意力機制學習不同模態(tài)之間的交互作用;
步驟4、將步驟3得到的文本特征、圖片特征以及多模態(tài)特征分別輸入到自注意力編碼層對特征內部中不同維度的信息分配合理的權重,進行進一步的特征選擇;
步驟5、將步驟4得到的文本特征、圖片特征、多模態(tài)特征分別輸入到各自多層感知機中得到情感識別結果;
步驟6、賦予各個分類器得到的情感類別概率各自的權重,通過加權的方式進行決策級融合,得到最終的情感分類結果。
2.根據權利要求1所述的一種基于注意力機制的圖文情感識別方法,其特征在于:
數據預處理步驟:特殊符號刪除:在社交媒體平臺上,用戶發(fā)布的內容中通常包含一些特殊符號,比如指向其他用戶的“@”符號,并且該符號后面的信息往往與用戶隱私有關,在情感分析任務中沒有用處,因此,@之后的單詞需要刪除;
分詞:使用常見的分詞工具將評論文本劃分成單詞,單詞成為進一步文本處理的的基本單位;去除停用詞:在自然語言處理中,刪除文本評論中的常見停用詞。
3.根據權利要求1所述的一種基于注意力機制的圖文情感識別方法,其特征在于:
由步驟1得到文本評論的單詞序列{wi,...wm},將特殊標記[CLS]添加到單詞序列的開頭,特殊標記[SEP]添加到單詞序列的結尾,通過預訓練的Roberta模型將單詞wi映射成768維向量:圖片提取采用先進的預訓練模型Resnet152。
4.根據權利要求1所述的一種基于注意力機制的圖文情感識別方法,其特征在于:將步驟2得到的文本特征、圖片特征互相作為輔助信息,輸入到跨模態(tài)編碼層,利用交叉注意力機制學習不同模態(tài)之間的交互作用;注意力機制旨在從一組與查詢向量x相關的上下文向量{yi}中挖掘信息;一個注意力層首先計算查詢向量x和每個上下文向量yi之間的匹配分數;然后將分數通過softmax函數歸一化,注意力層的輸出是上下文向量和歸一化后的分數的加權和。
5.根據權利要求1所述的一種基于注意力機制的圖文情感識別方法,其特征在于:
采用跨模態(tài)transformer編碼層分別利用文本特征挖掘圖片中的情感區(qū)域以及利用圖片特征挖掘文本描述中與圖片關聯(lián)的情感詞,跨模態(tài)編碼器中的每一層都由一個雙向交叉注意力子層和兩個前饋子層組成,在交叉模態(tài)編碼器中堆疊Nc層,將第k層的輸入用作第k+1層的輸出;在第k層的內部,首先應用雙向的交叉注意力子層,它包含兩個單向的交叉注意力子層:一個從語言到視覺,一個從視覺到語言:
交叉注意力層被用來在兩種模態(tài)之間交換信息和對齊實體,充分挖掘圖文數據間的關聯(lián)性和互補性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業(yè)大學,未經北京工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110992751.6/1.html,轉載請聲明來源鉆瓜專利網。





