[發明專利]一種基于卷積神經網絡的評論數據情感分類方法及系統有效
| 申請號: | 201810918698.3 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN109033433B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 鄭坤;姚宏;李潤佳;劉超;董理君;康曉軍 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06N3/04 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 孫麗麗 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 評論 數據 情感 分類 方法 系統 | ||
1.一種基于卷積神經網絡的評論數據情感分類方法,其特征在于,包含如下步驟:
S1、獲取訓練用的評論數據集,評論數據集中包含多條評論,每條評論均對應有情感極性評價;
S2、對評論數據集進行預處理,濾除其中的無用信息;
S3、分別對濾除無用信息后的評論數據集進行處理,對于每一條評論:提取其中的情感關鍵詞并獲取與情感關鍵詞對應的背景知識;
S4、利用向量生成模型,對每一條評論對應的情感關鍵詞與背景知識分別生成向量;
S5、對于每一條評論:將關鍵詞的向量進行拼接形成關鍵詞二維矩陣,將每一個背景知識的向量分別進行拼接形成各個背景知識的背景知識二維矩陣;
S6、分別將每一條評論的關鍵詞二維矩陣、背景知識二維矩陣一起拼接為一個多通道的二維矩陣;
S7、利用各條評論的多通道的二維矩陣與對應的情感極性評價進行情感分類模型訓練;
S8、利用訓練好的情感分類模型,對待分類評論數據進行情感分類;
步驟S3中,所述提取其中的情感關鍵詞并獲取與情感關鍵詞對應的背景知識采用如下方法實現:
利用步驟S2處理后的數據調用SenticNet情感網絡的API進行處理,調用的API種類有3類:情感關鍵詞的API,關鍵詞的同義詞API以及關鍵詞的釋義API,得到關鍵詞以及背景知識,其中背景知識是指:關鍵詞的同義詞和關鍵詞的釋義;
步驟S4、S5中具體包括步驟:
(1)用Word2Vec模型對關鍵詞進行處理,得到各個關鍵詞的向量表示,向量大小為1×M,M為大于1的正整數;將各個關鍵詞的向量一起進行拼接,形成一個大小為N×M的二維矩陣,N表示關鍵詞的個數;
(2)用TransE模型對關鍵詞的同義詞進行處理獲取N個關鍵詞,得到每個關鍵詞的各個同義詞的向量表示,對于每一個關鍵詞:將該關鍵詞對應的各個同義詞的向量相加后求平均得到一個大小為1×M的同義詞平均向量;將各個所述同義詞平均向量一起進行拼接,形成一個大小為N×M的二維矩陣;
(3)用Doc2Vec模型對關鍵詞的釋義進行處理,得到各個關鍵詞的釋義的向量表示,向量大小為1×M;將各個關鍵詞的釋義的向量一起進行拼接,形成一個大小為N×M的二維矩陣。
2.根據權利要求1所述的基于卷積神經網絡的評論數據情感分類方法,其特征在于,步驟S1中,所述情感極性評價是指積極的情感極性評價和消極的情感極性評價兩個種類。
3.根據權利要求1所述的基于卷積神經網絡的評論數據情感分類方法,其特征在于,步驟S2中,所述無用信息包括:停用詞、標定符號以及HTML標簽。
4.根據權利要求1所述的基于卷積神經網絡的評論數據情感分類方法,其特征在于,步驟S6中,所述多通道的二維矩陣為3通道的二維矩陣。
5.根據權利要求1所述的基于卷積神經網絡的評論數據情感分類方法,其特征在于,步驟S7具體包括:
S71、對各個多通道的二維矩陣進行卷積操作,得到矩陣的特征表示;
S72、對得到的特征表示進行池化操作;
S73、將池化后的矩陣連接到神經網絡的全連接層上,訓練分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810918698.3/1.html,轉載請聲明來源鉆瓜專利網。





