[發(fā)明專利]一種結合情感詞典的卷積神經網絡文本情感分析方法在審
| 申請?zhí)枺?/td> | 201810215323.0 | 申請日: | 2018-03-15 |
| 公開(公告)號: | CN108647219A | 公開(公告)日: | 2018-10-12 |
| 發(fā)明(設計)人: | 楊駿;印鑒;高靜 | 申請(專利權)人: | 中山大學;廣東恒電信息科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N3/04 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 文本情感 情感詞典 情感極性 詞向量 語料 相乘 模型訓練過程 準確度 矩陣表示 分析 關注點 停用詞 算法 拼接 句子 嵌入 標注 詞語 英文 評論 | ||
1.一種結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,包括以下步驟:
S1:首先獲取英文文本語料,接著對語料進行情感分類標注,最后將語料分為訓練和測試集兩個集合;
S2:對步驟S1)中的所有語料集進行停用詞處理;
S3:使用word2vec算法對步驟S2)中獲取的語料進行訓練得到相應的詞向量;
S4:根據sentiwordnet(情感詞典)獲取預知的各詞語的情感極性分布,并利用詞語在不同極性上的權重與該詞語的詞向量相乘,得到詞語在不同情感取向下的特征表示;
S5:將處理后的訓練集語料按照句子順序拼接起來形成矩陣放進卷積神經網絡中進行訓練,其中句子里的詞語在多個情感取向下的表示可以拼接得到多個矩陣,而這多個矩陣對應卷積神經網絡中的多個頻道;
S6:將步驟S2)、S3和步驟S4處理獲取的測試集語料放入步驟S5中訓練好的情感分析模型,最終獲取測試集的情感分類結果。
2.根據權利要求1所述的結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,所述步驟S1的具體過程是:
先通過爬蟲或其它軟件獲取具有情感極性的英文文本語料;接著對文本語料進行情感分類標注,文本標注分為積極,中性,消極三種;最后將標注好的文本語料以8:2的比例劃分為訓練集和測試集兩個集合。
3.根據權利要求2所述的結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,所述步驟S2的具體過程是:
對獲取的英文語料做去停用詞的處理,去除句子中“the”,“this”,“a”,“an”等不表達情感的詞語。
4.根據權利要求3所述的結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,所述步驟S3的具體過程如下:
使用python中的gensim庫,對步驟S2)得到的語料進行訓練,通過訓練獲取語料庫中每個詞語對應的詞向量。
5.根據權利要求4所述的結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,所述步驟S4的具體過程如下:
S41:根據情感詞典sentiwordnet獲取訓練語料中各詞語對應的積極值,消極值,客觀值,若某詞語在詞典中的極性下有多個值,則取其平均值代表詞語在該極性下的分值;若詞典中不存在輸入語料的某個詞,則設置其積極值,消極值,客觀值都為1;
S42:在步驟S3中,每個詞語得到了一個向量表示,這個向量叫做詞向量。在步驟S4中,每個詞語得到了三個對應的情感值,在這里直接把詞語的每個情感值與其詞向量相乘,每個詞即可得到三個對應的三個詞向量,他們分別是積極詞向量,消極詞向量和客觀詞向量。
6.根據權利要求5所述的結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,所述步驟S5的具體過程如下:
S51:把每句話中的詞語所對應的積極詞向量拼接起來,作為句子的積極表示矩陣,把每句話中的詞語所對應的消極詞向量拼接起來,作為句子的消極表示矩陣,把每句話中的詞語所對應的客觀詞向量拼接起來,作為句子的客觀表示矩陣。這三個矩陣作為CNN輸入中的三個不同頻道;
S52:將拼接得到的詞向量矩陣輸入卷積神經網絡CNN中訓練出情感分析模型,CNN模型結構具體如下:
采用的CNN模型包含三個基本元素:卷積層、池化層和輸出層,在卷積層中,定義了多個權值矩陣用于對輸入矩陣進行卷積操作,不同的權值矩陣用來提取輸入信息中不同的特征,在卷積層獲取特征后,通過池化層來減少訓練參數的數量,池化在每一個頻道上獨立完成,因此輸入矩陣的縱深保持不變,這里使用的是最大池化;經過了卷積層和池化層的操作,輸出層將來自它們的輸入進行平化和連接,從而產生輸出;若輸出信息錯誤,將會進行反向傳播,以不斷改變權值矩陣權重和偏差值;
S53:對每個minibatch中的語料計算損失函數,并通過反向傳播來優(yōu)化網絡內的參數。經過多輪迭代后,當準確率趨于穩(wěn)定時,完成模型訓練。
7.根據權利要求6所述的結合情感詞典的卷積神經網絡文本情感分析方法,其特征在于,所述步驟S6的具體過程如下:
將通過步驟S2和步驟S3處理后的測試集語料放入步驟S5中來獲取情感分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學;廣東恒電信息科技股份有限公司,未經中山大學;廣東恒電信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810215323.0/1.html,轉載請聲明來源鉆瓜專利網。





