[發明專利]一種結合Doc2vec和卷積神經網絡的情感分類方法有效
| 申請號: | 201610049581.7 | 申請日: | 2016-01-25 |
| 公開(公告)號: | CN105740349B | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 唐賢倫;周沖;周家林;劉慶;張娜;張毅;郭飛;劉想德 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F17/27;G06N3/08 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 doc2vec 卷積 神經網絡 情感 分類 方法 | ||
本發明請求保護一種結合Doc2vec和卷積神經網絡的情感分類方法,該方法將Doc2vec和CNN進行有效的結合。該結合方法對于特征的表示,不但考慮到了詞與詞之間的語義關系,并且解決了維數災難,還考慮到了詞與詞之間的順序問題。CNN可以通過學習一種深層的非線性的網絡結構來彌補淺層特征學習方法的不足,采用分布式表示輸入數據的表征,展現了強大的特征學習能力,特征提取和模式分類可以同時進行,CNN模型的稀疏連接和權重共享兩個特點可以減少網絡的訓練參數,使神經網絡結構變得更簡單,適應性更強。結合Doc2vec和CNN來處理情感分類問題可顯著提高情感分類的準確率。
技術領域
本發明屬于涉及情感分類方法領域,尤其涉及一種結合Doc2vec和卷積神經網絡的情感分類方法。
背景技術
情感分析是一種常見的自然語言處理(NLP)方法的應用,特別是在以提取文本的情感內容為目標的分類方法中。情感分類已經有很多有用的實踐,比如企業分析消費者對產品的反饋信息,或者檢測在線評論中的差評信息。常見的情感分類方法主要有支持向量機,最大熵以及隨機游走等淺層學習方法。這些方法在建模的過程中使用的函數簡單,計算方法也比較簡單,容易實現而且計算量較小,在有限的樣本和計算單元的條件下導致其對復雜函數的表達能力受到限制,同時對于復雜的分類問題,這些方法的泛化能力也在一定程度上受到制約。卷積神經網絡(CNN)屬于深層網絡,深層網絡可以通過學習一種深層的非線性的網絡結構來彌補這一約束,深層網絡采用分布式表示輸入數據的表征,與此同時,深層網絡也展現了它強大的特征學習能力,即其可以從少量的樣本集中抓取到數據的本質特征。CNN不僅包含了深層網絡的這些優點,并且可以特征提取和模式分類同時進行,而且CNN的模型有稀疏連接和權重共享這兩個特點,可以減少網絡的訓練參數,使神經網絡結構變得更簡單,適應性更強。
情感文本的向量表示一般有兩種表達方式,One-hot Representation和Distributed Representation。One-hot Representation最大的問題是無法分析詞與詞之間的語義關系,此外這種方法還容易發生維數災難。Distributed Representation方法則很好地克服了這些缺點,其中word2vec就是Distributed Representation的典型代表。雖然word2vec很好的分析了詞與詞之間的語義關系并且解決了維數災難問題,但是沒有考慮到詞與詞之間的順序問題,因此不同的句子可能會有相同的表示,從而導致誤判率較高。Doc2vec跟word2vec很相似,Doc2vec在word2vec的模型的基礎上增加了一個段落向量(Paragraph Id)。Doc2vec不但考慮到了詞與詞之間的語義關系,并且解決了維數災難,還考慮到了詞與詞之間的順序問題。所以,相對于其它方法,結合Doc2vec和卷積神經網絡來處理情感分類問題可顯著提高情感分類的準確率。
發明內容
針對以上現有技術的不足,提出了一種可以減少網絡的訓練參數,使神經網絡結構變得更簡單,適應性更強、可顯著提高情感分類的準確率的結合Doc2vec和卷積神經網絡的情感分類方法。。本發明的技術方案如下:一種結合Doc2vec和卷積神經網絡的情感分類方法,,其包括以下步驟:
步驟1:從網上搜集情感文本語料集,標記類別,將文本里的數據表示成一個句子,并將情感文本語料分為訓練集語料和測試集語料;
步驟2:從網上搜集情感詞典,并采用基于詞典逆向最大匹配算法和統計分詞策略相結合的中文分詞算法對步驟1中的訓練集語料和測試集語料進行分詞處理,然后去除停用詞;
步驟3:采用Doc2vec對步驟2中分詞處理并去除停用詞后的訓練集語料和測試集語料訓練出詞向量模型并得到文本向量;
步驟4:將步驟3中的語料中的訓練集語料的文本向量輸入卷積神經網絡CNN訓練出情感分類模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610049581.7/2.html,轉載請聲明來源鉆瓜專利網。





