[發明專利]基于融合特征的網絡短文本情感分析方法在審
| 申請號: | 202210437256.3 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114817536A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 牟雪峰;李海明 | 申請(專利權)人: | 上海電力大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/335;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 丁振英 |
| 地址: | 201306 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 融合 特征 網絡 文本 情感 分析 方法 | ||
1.一種基于融合特征的網絡短文本情感分析方法,其特征在于,包括以下步驟:
步驟S1,對待測原始彈幕數據進行情感極性的標注生成標注后數據;
步驟S2,構建并使用預定訓練集訓練得到基于文本和時間雙通道的短文本情感分析模型,該模型具有輸入層、嵌入層、融合層以及分類層;
步驟S3,將所述標注后數據輸入至所述短文本情感分析模型中,通過所述輸入層提取對應的文本信息和時間信息;
步驟S4,由所述嵌入層對所述文本信息和時間信息進行向量化處理,分別得到與所述文本信息對應的字向量、詞向量以及和所述時間信息對應的時間向量;
步驟S5,將所述字向量和詞向量作為所述融合層的輸入,進行深度特征提取得到字特征向量、詞特征向量,并將字、詞特征向量與所述時間向量拼接得到彈幕特征向量;
步驟S6,通過所述分類層計算所述彈幕特征向量的文本標簽的類別概率,從而得到所述待測原始彈幕數據的情感類別分析結果。
2.根據權利要求1所述的基于融合特征的網絡短文本情感分析方法,其特征在于:
其中,所述嵌入層具有ERNIE模型和線性激活函數,所述ERNIE模型的編碼器由transformer結構組成,
所述詞向量基于所述transformer結構對所述文本信息進行向量化處理得到:
Vw=f(Wexi)
式中,f是編碼器,We是需要被學習的參數,
設定每條彈幕含有n個字,將每個字都轉換成其one-hot向量的形式xi=(x1,x2...xn),通過嵌入矩陣Wc得到xi的嵌入向量表達形式vi,vi=Wcxi,再將每個字的嵌入向量進行拼接得到所述字向量,
所述時間向量基于所述線性激活函數對彈幕的時間特征進行表示得到。
3.根據權利要求1所述的基于融合特征的網絡短文本情感分析方法,其特征在于:
其中,所述融合層具有TextCNN模型,
所述TextCNN模型用于對所述字向量和詞向量進行深度特征提取得到對應的字特征向量和詞特征向量,
將所述字特征向量、所述詞特征向量以及所述時間向量拼接得到彈幕特征向量S:
S=Sw+Sc+St
式中,Sw為詞特征向量,Sc為字特征向量,St為時間向量。
4.根據權利要求1所述的基于融合特征的網絡短文本情感分析方法,其特征在于:
其中,所述預定訓練集的獲取過程為:
采用遍歷的方法爬取原始彈幕,并刪除重復彈幕,將得到的彈幕按每3秒劃分為一個子集,根據每個彈幕所對應的視頻內容和上下文彈幕內容,對彈幕進行情感極性的標記。
5.根據權利要求1所述的基于融合特征的網絡短文本情感分析方法,其特征在于:
其中,所述分類層包括BiGRU-ATT模型和softmax函數,
所述BiGRU-ATT模型基于注意力機制ATTENTION和兩個方向相反的GRU網絡組成,
所述彈幕特征向量作為所述BiGRU的輸入,在t時刻由兩個GRU共同決定,設定向前GRU在t時刻的狀態為ht1,向后GRU在t時刻的狀態為ht2,整個網絡在t時刻的狀態為ht,根據下式求得ht:
ht=ht1+ht2,
所述注意力機制ATTENTION將ht作為輸入,并加權求和得到句子表達式ri:
mi=tanh(ht)
pi=softmax(Wmi)
ri=ht*pi
所述softmax函數對所述句子表達式ri計算文本標簽的類別概率,得到分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海電力大學,未經上海電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210437256.3/1.html,轉載請聲明來源鉆瓜專利網。





