[發明專利]一種基于語境詞向量和深度學習的情感分析方法在審
| 申請號: | 201810307751.6 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108427670A | 公開(公告)日: | 2018-08-21 |
| 發明(設計)人: | 胡向東;錢宏偉;許奧狄;白銀;周歡 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語境詞 向量 情感分析 自然語言處理 準確率 情感傾向性分析 學習 高維數據 平臺用戶 情感傾向 情感特征 情感信息 用戶評論 語義信息 語境 詞語 文本 評論 分析 | ||
1.一種基于語境詞向量和深度學習的情感分析方法,其特征在于:該方法包括以下步驟:
S1:初始化,生成一個內容為空的數據庫,通過數據采集系統得到帶標簽的用戶評論數據,將數據保存到生成的數據庫中;
S2:數據預處理,將采集到的用戶評論數據進行清洗,根據每條評論的標簽將數據分類;
S3:詞向量構建,利用word2vec工具得到文本語義詞向量,再利用CoVe(ContextVectors)模型擴展文本語義詞向量得到語境詞向量;
S4:情感分析模型構建,利用區域卷積神經網絡CNN提取輸入文本特征的局部特征,結合Attention機制給對CNN的輸出向量賦予不同的權重,組合得到句子向量,再利用BI-LSTM模型提取文本的全局特征;
S5:將S4的輸出作為softmax函數的輸入,對所得到的特征進行分類,得到用戶評論的情感傾向,包括正立、中性和負立。
2.根據權利要求1所述的一種基于語境詞向量和深度學習的情感分析方法,其特征在于:所述步驟S2具體為:根據正則匹配算法濾除文本中無用的標點符號和語氣詞,使用深度學習分詞算法,結合收集的情感詞典,達到比較精確的分詞結果,然后統計詞頻,并根據詞頻建立詞典;
所述步驟S2具體為:由word2vec訓練得到語義詞向量矩陣D=Rv×d,其中v為詞典大小,d為每個向量維度,語境詞向量由MT-LSTM模型得到,CoVe(ω)=MT-LSTM(ω),其中ω∈D,MT-LSTM為預訓練的神經翻譯模型,由該模型得到詞向量可以提取當前詞語境信息,消除詞語歧義,然后將Word2vec和CoVe得到的詞向量組合為新的詞向量矩陣其中d1為word2vec得到的詞向量維度,d2為CoVe得到的詞向量維度。
3.根據權利要求1所述的一種基于語境詞向量和深度學習的情感分析方法,其特征在于:所述步驟S3具體為:對步驟1的分詞結果采用word2vec工具中的Skip-gram模型訓練文本的語義詞向量,選擇模型窗口為5,即預測輸入詞前后兩個詞,然后將得到的語義詞向量輸入到語境詞向量訓練模型中得到語境詞向量。
4.根據權利要求1所述的一種基于語境詞向量和深度學習的情感分析方法,其特征在于:所述步驟S4具體為:首先將每個句子補全為相同長度,根據詞典索引獲取詞語的詞向量并將每個評論語句組合成句向量,然后將句子劃分為h個區域,其中h為單句評論中最大的情感詞數目,基于情感詞數目劃分區域可以有效提取不同區域中情感詞上下文的特征信息,使模型在訓練過程中有效綜合同一句子中不同的情感信息;
將劃分的各區域獨立地作為卷積神經網絡的輸入矩陣,然后使用長度為L的卷積核對區域做卷積操作,提取每個區域的局部特征,其每個區域的特征由公式mi=f(W0hi+b)得到,其中W為卷積核權重,b為偏置向,f為激活函數,所得到每個區域特征矩陣組合為矩陣M=[m1,m2,…,mm-l+1];
將所得到的區域特征按句子的先后順序形成序列化矩陣輸入到Bi-LSTM模型中,提取文本的全局特征,對每個Bi-LSTM單元提取的特征使用Attention機制,對每個特征賦予不同的權重,由公式得到組合特征矩陣,其中表示第i個區域的重要程度,并由公式得到,其中ai=VTtanh(WAxi+b),WA為參數矩陣,b為偏置向,VT為隨機初始矩陣V的轉置。
5.根據權利要求1所述的一種基于語境詞向量和深度學習的情感分析方法,其特征在于:所述步驟S5具體為:對經過Attention機制處理過的特征進行分類處理,使用softmax函數對矩陣k進行分類,其結果由公式pi=softmax(W·k+b)得到,其中W為權重矩陣,b為偏置項,pi為每句評論的情感傾向概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810307751.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:異常行為監控方法和系統
- 下一篇:信息轉換方法和裝置、存儲介質及電子裝置





