[發(fā)明專利]一種基于改進CNN-LDA的情感分析方法有效
| 申請?zhí)枺?/td> | 201910248424.2 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109977413B | 公開(公告)日: | 2023-06-06 |
| 發(fā)明(設計)人: | 張咪;章韻 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06N3/0464;G06N3/08 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 cnn lda 情感 分析 方法 | ||
1.一種基于改進CNN-LDA的情感分析方法,其特征在于:包括以下步驟:
S01,從豆瓣平臺采集豆瓣影評數(shù)據并進行預處理,豆瓣影評數(shù)據包括評論人ID,評論內容和影評星級評價,對影評評論內容中的語料進行情感分類標注,并將語料分為訓練集和測試集兩個集合;
S02,使用Word2Vec算法訓練S01獲取的影評評論內容的語料集,將語句中的單詞映射為多維度的連續(xù)向量,構建詞向量矩陣;
S03:構建情感詞典,包括正向情感詞、負向情感詞、程度副詞和否定副詞,根據情感詞典獲取每條影評評論內容的正向情感詞、負向情感詞、程度副詞和否定副詞,將語料中詞向量集合和情感詞典作為輸入,依次將語料中的詞向量與詞典集合中的情感詞比較,計算相似度,并選取最優(yōu)值作為該詞向量的權值,輸出詞向量的情感傾向權重集合;
S04:采用向量機的方式,結合S02得到的詞向量矩陣與S03得到的情感傾向權重集合,對詞向量賦予不同的權重,得到情感加權詞向量表征;
S05:利用LDA主題生成模型提取評論數(shù)據語料集主題特征,通過LDA訓練S01獲取的評論語料集,獲得LDA主題分布概率,輸出文本—主題、主題—詞語矩陣,確定恰當個數(shù)的主題類別,將每條影評所屬主題類別作為電影情感分析的主題特征,模型訓練結束輸出語料庫任意文本的主題分布矩陣,得到主題向量表征;
S06:采用向量拼接的方式,將S04得到的情感加權詞向量表征與S05得到的主題向量表征疊加在一起,形成新的詞向量表征,即同時包含詞義特征和整體語義特征,并且加入情感傾向關注度;
S07:將S06得到的訓練集的新的詞向量表征作為卷積神經網絡的輸入,訓練模型;
S08:將S06得到的測試集的新的詞向量表征輸入S07中已被訓練的情感分析模型,進行情感分類,并計算其準確率。
2.根據權利要求1所述的基于改進CNN-LDA的情感分析方法,其特征在于:S01中,通過爬蟲工具獲取豆瓣影評數(shù)據,豆瓣影評數(shù)據預處理過程去除英文評價,排除同一用戶可能性的多次刷評,并按照影評星級對影評打標簽:1~2星標注為消極,4~5星標注為積極,3星標注為中性;通過人工篩選,將語料集劃分為positive和negative兩個集合,并按照7:3的比例劃分訓練集和測試集。
3.根據權利要求2所述的基于改進CNN-LDA的情感分析方法,其特征在于:S01中,在對語料進行情感分類標注以及劃分之后對語料進行文本預處理,具體為采用基于Python的結巴分詞工具的精確模式對語料分詞,利用正則式去除分詞結果中的標點符號,采用Stopword.txt停用詞表去除分詞結果中的停用詞。
4.根據權利要求1所述的基于改進CNN-LDA的情感分析方法,其特征在于:S02中,獲得Word2Vec詞向量輸入表征需要使用python中的gensim庫,對S01獲取的評論語料進行訓練,得到包含上下文信息和語義信息的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910248424.2/1.html,轉載請聲明來源鉆瓜專利網。





