[發(fā)明專利]基于特征增強的短文本情感分類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110570246.2 | 申請日: | 2021-05-25 |
| 公開(公告)號: | CN113326374B | 公開(公告)日: | 2022-12-20 |
| 發(fā)明(設(shè)計)人: | 安俊秀;陳濤;靳宇倡;盧曉曉 | 申請(專利權(quán))人: | 成都信息工程大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京元本知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11308 | 代理人: | 王紅霞 |
| 地址: | 610225 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 特征 增強 文本 情感 分類 方法 系統(tǒng) | ||
1.一種基于特征增強的短文本情感分類方法,其特征在于,包括以下步驟:
基于TextRank對短文本數(shù)據(jù)進行情感詞提取得到情感詞典;
獲取實驗短文本數(shù)據(jù)集,基于Word2vec模型對所述實驗短文本數(shù)據(jù)集進行訓(xùn)練得到訓(xùn)練文本詞向量;
對所述情感詞典進行加權(quán)矩陣運算,得到情感詞加權(quán)矩陣;
基于所述情感詞加權(quán)矩陣和訓(xùn)練文本詞向量進行矩陣乘法獲得基于情感詞加權(quán)的Word2vec詞向量矩陣;
對所述Word2vec詞向量矩陣進行分類;
所述對所述情感詞典進行加權(quán)矩陣運算,得到情感詞加權(quán)矩陣的步驟具體包括:
將所述情感詞典中的情感詞進行TextRank模型訓(xùn)練,得到每個情感詞在整個短文本數(shù)據(jù)中相應(yīng)的權(quán)重,并將權(quán)重信息存在第一字典中;
查找所述訓(xùn)練文本詞向量的詞中是否包含第一字典中的詞,如果有,則構(gòu)建與所述訓(xùn)練文本詞向量維度相同的權(quán)重向量;否則,構(gòu)建與所述訓(xùn)練文本詞向量維度相同的單位向量;
將權(quán)重向量與所述訓(xùn)練文本詞向量整合形成含有情感詞權(quán)重信息的文本詞向量;
通過基于注意力機制的混合神經(jīng)網(wǎng)絡(luò)情感分類模型對所述Word2vec詞向量矩陣進行分類,其具體步驟為:
輸入短文本數(shù)據(jù)的所述Word2vec詞向量矩陣;
采用單層卷積對所述Word2vec詞向量矩陣進行局部特征提取;
采用了雙向長短時記憶網(wǎng)絡(luò)對所述短文本數(shù)據(jù)進行全局情感特征提取;
將提取得到的單層卷積局部特征與全局情感特征進行拼接得到拼接向量;
基于注意力機制給所述拼接向量分配不同的情感權(quán)重,對分配不同的情感權(quán)重后的所述拼接向量進行情感分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于TextRank算法對短文本數(shù)據(jù)進行情感詞提取包括以下步驟:
對短文本數(shù)據(jù)分詞處理;
對分詞后的短文本數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,然后挑選候選關(guān)鍵詞構(gòu)建候選情感詞集合;
基于TextRank算法計算候選情感詞集的候選關(guān)鍵詞的權(quán)重;
基于詞圖構(gòu)建分值公式,迭代運算可得到詞圖各個節(jié)點的權(quán)重,直到分值公式收斂完成情感詞提取。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述權(quán)重向量為對角矩陣。
4.一種基于特征增強的短文本情感分類系統(tǒng),其特征在于,包括:
情感詞提取模塊,用于接收短文本數(shù)據(jù),并通過TextRank對所述短文本數(shù)據(jù)進行情感詞提取得到情感詞典;
Word2vec詞向量模塊,用于接收實驗短文本數(shù)據(jù)集,基于Word2vec模型對所述實驗短文本數(shù)據(jù)集進行訓(xùn)練得到訓(xùn)練文本詞向量;
加權(quán)模塊,與所述情感詞提取模塊、所述Word2vec詞向量模塊相連,用于對所述情感詞典進行加權(quán)矩陣運算,得到情感詞加權(quán)矩陣;
加權(quán)Word2vec詞向量模塊,與所述加權(quán)模塊、所述Word2vec詞向量模塊相連,用于根據(jù)所述情感詞加權(quán)矩陣和訓(xùn)練文本詞向量進行矩陣乘法獲得基于情感詞加權(quán)的Word2vec詞向量矩陣;
分類模塊,與所述加權(quán)Word2vec詞向量模塊相連,用于對所述Word2vec詞向量矩陣進行分類;
所述加權(quán)模塊還包括權(quán)重信息獲取單元、權(quán)重向量單元,其中,
所述權(quán)重信息獲取單元用于將所述情感詞提取模塊中情感詞典的情感詞進行TextRank模型訓(xùn)練,得到每個情感詞在整個短文本數(shù)據(jù)中相應(yīng)的權(quán)重,并將權(quán)重信息存在第一字典中;
所述權(quán)重向量單元與所述權(quán)重信息單元、Word2vec詞向量模塊相連,用于當所述訓(xùn)練文本詞向量的詞中是否包含第一字典中的詞時,則構(gòu)建與所述訓(xùn)練文本詞向量維度相同的權(quán)重向量;否則,構(gòu)建與所述訓(xùn)練文本詞向量維度相同的單位向量;然后將權(quán)重向量與單位向量整合形成含有情感詞權(quán)重信息的文本詞向量;
所述分類模塊還包括神經(jīng)網(wǎng)絡(luò)單元,用于構(gòu)建基于注意力機制的混合神經(jīng)網(wǎng)絡(luò)情感分類模型,所述基于注意力機制的混合神經(jīng)網(wǎng)絡(luò)情感分類模型包括輸入層、一維卷積層、Bi-Lstm層、向量拼接層、注意力層、情感分類輸出層。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述權(quán)重向量為對角矩陣。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述輸入層用于獲取短文本數(shù)據(jù)得到向量表示矩陣;
所述一維卷積層與所述輸入層相連,用于對所述向量表示矩陣進行局部特征提取;
所述Bi-Lstm層與所述輸入層相連,用于對所述短文本數(shù)據(jù)進行全局情感特征提取;
所述向量拼接層與所述Bi-Lstm、所述一維卷積層相連,用于將單層卷積局部特征與全局情感特征進行拼接得到拼接向量;
所述注意力層與所述向量拼接層相連,用于給所述拼接向量分配不同的情感權(quán)重;
所述情感分類輸出層對注意力層得到的分配不同的情感權(quán)重后的所述拼接向量進行情感分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程大學(xué),未經(jīng)成都信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110570246.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





