[發明專利]一種基于中文數據集的文本情感分析方法在審
| 申請號: | 201810552925.5 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108763216A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 李輝;鄭媛媛;余偉陽;高娜;周巧喜 | 申請(專利權)人: | 河南理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 454000 河南*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本情感 數據集 中文 文本 預處理 矩陣 卷積神經網絡 神經網絡結構 注意力機制 記憶網絡 局部信息 文本特征 序列關系 分析 詞向量 分類 語料 句子 詞語 輸出 學習 引入 轉換 | ||
本發明針對目前文本情感分析任務中所使用的神經網絡結構無法提取文本重要特征的問題,提出了一種基于中文數據集的文本情感分析方法,包括步驟:首先對語料進行預處理,將其轉換為詞向量矩陣;然后使用卷積神經網絡(CNN)進行局部信息特征的提取,接著將其作為長短時記憶網絡(LSTM)的輸入,學習文本詞語,句子之間的序列關系;在其后引入注意力機制,來學習重要的文本特征;最后使用分類層對輸出進行分類。本發明所提方法在中文數據集上具有可行性和優越性。
技術領域
本發明提出一種基于中文數據集的文本情感分析方法,涉及文本情感分析領域。
背景技術
隨著互聯網的快速發展,大多數人都有在微博,論壇等各種社交網絡發表意見的經歷,這種情況帶來了大量帶有人們情感色彩的文本,對于這些文本情感的分析與分類,是自然語言處理(NLP)的一個重要分支。
文本情感分析的主要任務就是對帶有感情色彩的文本進行分析,處理,歸納,判斷。傳統機器學習算法需要使用大量的人工選擇的數據特征,耗費大量人力且遷移性不強,而且不論是有監督還是無監督的學習方法,都屬于淺層學習,無法學習到文本的更深層信息,在有限的文本數據和計算單元的情況下,機器學習對于復雜問題的處理以及復雜功能的實現上會受到一定程度的限制。
為了克服傳統機器學習算法的缺陷,很多工作開始利用深度學習算法來處理NLP任務,CNN(Convolutional Neural Network )和RNN( Recurrent Neural Networks)是文本情感分析任務中使用最廣泛的網絡模型。但是由于文本中,每個詞或者句子對整個文本的情感極性有著不同的決定作用,而以上兩種神經網絡都是學習文本的整體特征,無法識別文本重要的信息。
本發明提出一種基于中文數據集的文本情感分析方法,構建了一種基于注意力機制的混合神經網絡模型(ConvLSTM-Attention),先對中文語料進行分詞和去停用詞的處理,通過詞向量工具將其轉變為詞向量矩陣;然后使用卷積神經網絡(CNN)進行局部信息特征的提取,將其作為長短時記憶網絡(LSTM)的輸入,來學習文本詞語,句子之間的序列關系;在其后引入注意力機制,來學習重要的文本特征;最后將得到的文本特征表示輸入softmax分類層進行分類。該方法相較于一般深度學習網絡,能夠充分地提取文本的局部特征與序列信息,并能夠通過注意力機制學習文本的重要信息特征,其正確率在中文數據集上可以達到91.76%。
發明內容
有鑒于此,本發明的主要目的在于將CNN網絡與LSTM相結合,并在其后加入注意力層,提取重要的文本信息特征,提高文本情感分析的正確率。
為了達到上述目的,本發明提出的技術方案為:
一種基于中文數據集的文本情感分析方法,所述方法包括如下步驟:
步驟1、對語料進行預處理,將文本轉換為固定大小的詞向量矩陣;
步驟2、使用卷積神經網絡(CNN)進行局部信息特征的提取,將其作為長短時記憶網絡(LSTM)的輸入,來學習文本詞語,句子之間的序列關系;
步驟3、引入注意力機制,將步驟2得到的特征作為輸入,進一步學習重要的文本特征;
步驟4、將得到的文本特征表示輸入softmax分類層進行分類,積極為1,消極為0,并與文本標簽進行對比計算,得出文本分類正確率。
綜上所述,本發明使用CNN結合LSTM,并引入注意力機制來學習重要的文本信息,實質上就是使用LSTM對序列信息的學習能力來取代傳統卷積神經網絡的池化層,保留重要的文本特征信息,然后使用注意力層識別重要的特征,提升分類準確率。
附圖說明
圖1為本發明所述的一種基于中文數據集的文本情感分析方法的總體流程示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南理工大學,未經河南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810552925.5/2.html,轉載請聲明來源鉆瓜專利網。





