[發明專利]一種融合常識知識的文檔級圖文評論情感分類方法在審
| 申請號: | 202211098773.9 | 申請日: | 2022-09-08 |
| 公開(公告)號: | CN116521818A | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 謝珺;王雨竹;高婧;胡勇;續欣瑩 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/169;G06F40/279;G06N3/0442;G06N3/09 |
| 代理公司: | 太原市科瑞達專利代理有限公司 14101 | 代理人: | 耿聯軍 |
| 地址: | 030024 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 常識 知識 文檔 圖文 評論 情感 分類 方法 | ||
1.一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:包括下述步驟:
S1、從目標的評論網站獲取帶有文本和圖片的原始評論數據,對文本和圖片的原始評論數據進行預處理,獲得文本和圖片的預處理評論數據,然后對文本和圖片的預處理評論數據進行初步的特征提取,得到詞級文本特征和全局視覺特征;
S2、將文本的預處理評論數據輸入ATOMIC-COMET語言模型,ATOMIC-COMET語言模型對文本的預處理評論數據中包含的事件進行常識推理,得到常識知識特征;
S3、將詞級文本特征輸入序列型神經網絡Bi-GRU中,得到上下文增強的句子級文本特征,將句子級文本特征與常識知識特征一起輸入常識知識融合層,得到句子級的文本情感特征;
S4、將全局視覺特征與句子級的文本情感特征輸入多模態信息交互層,學習模態間細粒度的相關性,得到句子級圖文相關的細粒度融合特征;
S5、由句子級的文本情感特征和句子級圖文相關的細粒度融合特征分別聚合得到兩個通道的文檔級特征,由門控機制融合兩個通道的文檔級特征后,得到最終文檔級的特征表示,使用多層感知機計算最終文檔級的特征表示的情感類別的概率分布,選擇其中概率值最高的類別作為最終分類結果。
2.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S1中所述的對文本和圖像的原始評論數據進行預處理是指,對文本的評論數據進行分句、分詞、去停用詞的處理,和將圖像的原始評論數據中所有圖像轉換為大小為224×224的RGB圖像的處理。
3.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S1中所述的對文本和圖像的預處理評論數據進行初步的特征提取是指,采用預訓練的GloVe模型提取文本特征,得到詞級文本特征,采用預訓練的VGG-16框架對圖片的預處理評論數據提取得到全局視覺特征。
4.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S2中所述的ATOMIC-COMET語言模型來源于ATOMIC中的知識三元組預訓練的ATOMIC-COMET模型。
5.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S2中進行常識推理是指,進行當事人意圖、當事人情感反應、其他人的情感反應的三種常識推理;步驟S2中得到常識知識特征是指得到當事人意圖、當事人情感反應、其他人的情感反應三種常識知識特征。
6.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S3所述將詞級文本特征輸入序列型神經網絡Bi-GRU中,得到上下文增強的句子級文本特征,將句子級文本特征與常識知識特征一起輸入常識知識融合層,得到句子級的文本情感特征包括以下步驟:
步驟1:將詞級文本特征輸入到詞級雙向門控循環神經網絡Bi-GRU,并由自注意力機制聚合得到句向量,再將句向量輸入到句子級雙向門控循環神經網絡Bi-GRU,輸出各單元的隱藏狀態即為上下文增強的句子級文本特征;
步驟2:將句子級文本特征與常識知識特征一起輸入基于軟注意力機制構建的常識知識融合層,分別計算常識推理中句子級文本特征與常識知識特征的關聯度,進行選擇性融合,得到句子級的文本情感特征。
7.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S4中多模態信息交互層是一種基于文本引導的交互注意力機制,步驟S4中學習模態間細粒度的相關性,是指將句子級的文本情感特征作為查詢,計算其與全局視覺特征中每張圖像的相關性,相關性越強則圖像的權重越大,由此聚合多張圖像的特征,然后與句子級的文本情感特征進行融合。
8.根據權利要求1所述的一種融合常識知識的文檔級圖文評論情感分類方法,其特征在于:步驟S5中,由句子級的文本情感特征和句子級圖文相關的細粒度融合特征分別聚合得到兩個通道的文檔級特征,由門控機制融合兩個通道的文檔級特征后,得到最終文檔級的特征表示包括如下步驟
步驟1:通過自注意力機制,將句子級文本情感特征聚合為文檔級的文本特征表示dT;
步驟2:通過自注意力機制,將句子級圖文相關的細粒度融合特征聚合為文檔級的融合特征表示dVT;
步驟3:采用門控機制M(.)控制信息流,將兩個通道的文檔級特征表示進行融合,得到最終文檔級的特征表示d:
d=M(dT,dVT)⊙dT+(1-M(dT,dVT))⊙dVT
上述步驟中⊙表示元素的乘法,門控機制函數M(.)具體表示為:
M(dT,dVT)=sigmoid(UTtanh(Wq(dT+dVT)+bq))
式中Wq和bq是隨機初始化的權重和偏置參數,UT是隨機初始化的全局矩陣參數,sigmoid、tanh是激活函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211098773.9/1.html,轉載請聲明來源鉆瓜專利網。





