[發明專利]一種基于加窗詞向量特征的短文本情感分析方法有效
| 申請號: | 201811156163.3 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN109388800B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 申亞博;馬勇;顧明亮;趙冬梅;申影利;李世黨;魏明生 | 申請(專利權)人: | 江蘇師范大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 周敏 |
| 地址: | 221000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 加窗詞 向量 特征 文本 情感 分析 方法 | ||
一種基于加窗詞向量特征的短文本情感分析方法,涉及自然語言處理技術,包括步驟:文本預處理、特征提取、詞向量訓練、詞向量轉換、加窗操作、分類器建模、分類器加權融合。本發明的一種基于加窗詞向量特征的短文本情感分析方法,提出一種對詞向量加窗的方法,使用不同窗長對詞向量進行加窗操作,從而將情感時序變化過程加入詞向量中得到組合特征,比傳統直接使用詞向量的方法更加有效;通過對組合特征進行建模訓練,針對不同窗長的組合特征使用不同的分類器,最后使用網格搜索尋找最佳權重組合,將每一個分類器的分類概率與權重融合得出最終結果,相比于單獨使用單一的分類器具有更好的效果。
技術領域
本發明涉及自然語言處理技術,具體涉及一種基于加窗詞向量特征的短文本情感分析方法。
背景技術
近年來互聯網技術以及自媒體飛速發展,網絡平臺上的各類用戶言論越來越多,導致網絡數據呈爆炸式增長,對這些數據的有效分析具有很大的市場價值。如對某產品的評論數據分析既可以給消費者提供更加全面的決策參考,也可以幫助生產商了解產品的市場口碑,靈活地對產品進行修飾以提高產品質量。而如何從海量數據中提取有用的情感信息,例如文本情感分析,正是現在自然語言處理領域的研究熱點。
文本情感分析旨在分析文本的語義傾向性,挖掘出文本包含的情感傾向。傳統的文本情感分析一般分為基于詞典的方法和基于機器學習的方法。前者主要依托語言學的研究成果,利用現有的情感詞典對文本進行情感分析。后者主要依靠人工標注的語料,從語料中提取有效的特征訓練分類器,從而實現文本的情感分析任務。利用詞典的方法需要人工構建情感詞典,成本較高。而傳統的機器學習方法多使用one-hot獨熱編碼表示文本向量形式,但是獨熱編碼存在維度災難的可能。因為傳統文本情感分析方法的這些缺陷,迫切地需要尋求更為切實有效的解決方法。隨著深度學習在自然語言處理領域的發展,Mikolov提出Word2Vec框架,既能夠解決維度問題,也可以表示出詞語之間相似度。但是,目前使用詞向量的方法多是直接將詞向量作為模型輸入,未能考慮情感時序變化過程。
發明內容
本發明的目的在于提供一種基于加窗詞向量特征的短文本情感分析方法,以提高提高短文本情感分析的識別率。
為實現以上發明目的,本發明的技術方案如下:
一種基于加窗詞向量特征的短文本情感分析方法,包括步驟:
S1、詞向量訓練:對大規模語料進行預處理,再對預處理后的大語料進行詞向量訓練,得到一定維度的詞向量;
S2、特征提取:對待分析文本進行預處理,選擇文本情感分類中的若干特征,對特征進行篩選,選出最具有區分能力的特征;
S3、詞向量轉換:將步驟S2得到的數據轉換為由步驟S1中的詞向量所組成的文本向量;
S4、加窗操作:對文本向量中的詞向量進行加窗操作,形成新的組合維度;
S5、獨立分類器建模:對步驟S4中加窗后的詞向量進行建模訓練,得出各自的識別率;
S6、分類器加權融合:使用網格搜索方法尋找最優的權重組合,將權重與對應的分類器判定概率相乘求和,得到最終分析結果。
作為本發明進一步改進的技術方案,所述步驟S1具體包括:
詞向量訓練:對大規模語料進行預處理,采用Word2Vec工具對預處理后的大語料進行詞向量訓練得到一定維度的詞向量。
作為本發明進一步改進的技術方案,所述步驟S2具體包括:
特征提取:對待分析文本進行預處理,先選擇文本情感分類中的一元詞特征、句法特征和基于詞典的特征,再對特征進行篩選,選出最具有區分能力的特征。
作為本發明進一步改進的技術方案,所述步驟S2中的對特征進行篩選所采用的方法為IG、MI方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇師范大學,未經江蘇師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811156163.3/2.html,轉載請聲明來源鉆瓜專利網。





