[發明專利]嵌入情感詞典的注意力機制循環神經網絡文本情感分析法有效
| 申請號: | 201711340972.5 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN108460009B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 陸逸扉;楊偉偉;方梓丞;印鑒;潘文杰 | 申請(專利權)人: | 中山大學;廣州中大南沙科技創新產業園有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入 情感 詞典 注意力 機制 循環 神經網絡 文本 分析 | ||
1.一種嵌入情感詞典的注意力機制循環神經網絡的文本情感分析方法,其特征在于,包括以下步驟:
S1:獲取英文文本語料,接著對語料進行情感分類標注,將語料分為訓練和測試集兩個集合;
S2:對步驟S1中的所有語料集進行停用詞處理;
S3:使用word2vec算法對步驟S2中獲取的語料進行訓練得到相應的詞向量;
S4:根據sentiwordnet獲取預 置 的各詞語的情感極性分布,并對句子中極性大的詞語分配大的權重;
S5:將訓練集語料放進具有注意力機制的循環神經網絡中進行訓練,在訓練過程中使模型的注意力擬合步驟S4所獲取的詞語的權重;
S6:將步驟S2和步驟S3處理獲取的測試集語料放入步驟S5)中,最終獲取測試集的情感分類結果;
所述步驟S4的具體過程如下:
S41:根據情感詞典sentiwordnet獲取訓練語料中各詞語對應的客觀值,若某詞語在詞典中有多個客觀值,則取其平均值;若某詞語在詞典中不存在客觀值,則設置其客觀值為1;
S42:根據每句中各詞語的客觀值,判斷該詞在情感分析過程中的重要程度:具體的確定過程如下:用1減去各詞的客觀值來獲取各詞的偏激值,接著使用計算各詞的重要程度,某一句子的詞語數量為n,句中詞語的偏激值分別為k1,k2,……,kn,則第i個詞語對應的重要程度Swi的計算公式為
所述步驟S5的具體過程如下:
S51:根據步驟S3獲取的詞向量,按照句子中詞語的順序作為不同時間步的輸入,使用基于注意力機制的循環神經網絡訓練情感分析模型,其具體實現公式如下:
ft=σ(Wf·X+bf)
it=σ(Wi·X+bi)
ot=σ(Wo·X+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)
ht=ot⊙tanh(ct)
M=tanh(H)
α=softmax(wTM)
r=HαT
其中,σ為sigmoid激活函數,操作符⊙為乘積操作,ft,it、ot分別為遺忘門,輸入門和輸出門,ct表示記憶單元,α代表注意力的權重,Wf,bf,Wi,bi,bo,Wc,bc,w是模型訓練過程中需要學習的參數;
最終的文本特征向量表示如下:
h*=tanh(Wpr+WxhN)
其中Wp和Wx是需要學習的參數;
S52:對訓練獲取文本的特征向量做softmax分類得到最終預測結果,此處模型優化的目標不僅在于使預測結果與真實情感標簽更一致,還要使步驟S51中獲取的注意力權重與步驟S42中獲取的權重一致,損失函數具體如下:
其中,i為訓練集中句子的索引,j為不同分類的索引,y為文本中情感標簽的真實分布,為模型預測的標簽分布,α和β屬于超參,為懲罰系數,最后一項表示對參數進行L2正則化懲罰,distance表示注意力權重與步驟S42中獲取的權重間的距離,具體計算公式如下:
其中L是當前句子的長度,δ是超參;
S53:對每個minibatch中的語料計算損失函數,并通過反向傳播來優化網絡內的參數,經過多輪迭代后,當準確率趨于穩定時,完成模型訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學;廣州中大南沙科技創新產業園有限公司,未經中山大學;廣州中大南沙科技創新產業園有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711340972.5/1.html,轉載請聲明來源鉆瓜專利網。





