[發明專利]一種融合顏文字的多類別情感提取方法在審
| 申請號: | 202110412378.2 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113191135A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 駱曦;劉曉曉 | 申請(專利權)人: | 北京聯合大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/284;G06F40/44;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京馳納智財知識產權代理事務所(普通合伙) 11367 | 代理人: | 蔣路帆 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 文字 類別 情感 提取 方法 | ||
1.一種融合顏文字的多類別情感提取方法,包括對文本集進行預處理,其特征在于,還包括以下步驟:
步驟1:將預處理完成的文本集放入Word2Vec中的Skip-Gram模型進行訓練,將詞的上下文關系嵌入到低維空間,得到所有詞語對應的詞向量;
步驟2:構建顏文字情感詞典;
步驟3:計算文檔中顏文字情感概率;
步驟4:計算文本情感概率;
步驟5:計算文檔綜合情感概率。
2.如權利要求1所述的融合顏文字的多類別情感提取方法,其特征在于,所述步驟2包括以下子步驟:
步驟21:根據Plutchik情感輪盤將情感分為四組對立情感,從訓練完成的Skip-Gram模型中分別獲取八個情感詞語和顏文字詞典中每個顏文字所對應的詞向量;
步驟22:分別計算每個顏文字向量與八個情感詞語向量之間的相似度即余弦距離s1,s2,...,s8,兩個詞向量X和Y間的余弦距離計算公式如下:
其中,X=(x1,x2,x3,…xD),Y=(y1,y2,y3,…yD),均包含D維特征,x為詞語X的詞向量表示,y為詞語Y的詞向量表示,D表示詞向量的維數,i表示詞向量的第i個分量;
步驟23:將所述余弦距離sim1,sim2,...,sim8進行歸一化處理,P(w)i為顏文字w所對應的第i種情感分類概率,可由下式計算得出:
其中,simi表示該顏文字與第i種情感詞之間的余弦距離,最終可使P(w)1+P(w)2+…+P(w)8=1;
步驟24:計算所有顏文字的情感概率并生成顏文字情感詞典。
3.如權利要求2所述的融合顏文字的多類別情感提取方法,其特征在于,所述步驟3包括對于某一文檔所有顏文字集合{w1,w2,...wm},通過查詢顏文字情感字典,對各類情感概率求均值,作為該文檔顏文字情感概率值:
其中,Si為該文檔顏文字的第i種情感值,m為該文檔包含顏文字的數量,j表示該文檔中的第j個顏文字。
4.如權利要求3所述的融合顏文字的多類別情感提取方法,其特征在于,所述步驟4包括以下子步驟:
步驟41:進行詞向量表示;
步驟42:輸入雙向LSTM網絡;
步驟43:輸入文本卷積神經網絡;
步驟44:使用最大池化進行下采樣處理,得到序列特征z={z1,z2,…,zq};
步驟45:輸入softmax層。
5.如權利要求4所述的融合顏文字的多類別情感提取方法,其特征在于,所述步驟41包括使用Skip-Gram輸出的詞向量表示文本,得到文本的詞向量序列t=[t1,t2,…,tn],其中ti表示文本中第i個詞,n為最大可輸入詞語數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聯合大學,未經北京聯合大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110412378.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:攝像機
- 下一篇:供熱/冷系統虛擬儲能能力計算方法、裝置與電子設備





