[發(fā)明專利]基于環(huán)境元嵌入和深度學(xué)習(xí)的情感傾向性分析方法在審
| 申請?zhí)枺?/td> | 201910197440.3 | 申請日: | 2019-03-15 |
| 公開(公告)號: | CN109948158A | 公開(公告)日: | 2019-06-28 |
| 發(fā)明(設(shè)計(jì))人: | 王傳棟;李智;史宇 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/35;G06N3/04 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征向量 詞向量 文本數(shù)據(jù) 分詞 嵌入 情感傾向性分析 情感傾向 文本語義 文本 句子 卷積神經(jīng)網(wǎng)絡(luò) 注意力機(jī)制 動(dòng)態(tài)獲取 分類函數(shù) 神經(jīng)網(wǎng)絡(luò) 自動(dòng)學(xué)習(xí) 全局 抽取 判定 采集 融合 學(xué)習(xí) 分類 評論 | ||
1.一種基于環(huán)境元嵌入和深度學(xué)習(xí)的情感傾向性分析方法,其特征在于:包括如下步驟:
S1,采集用于訓(xùn)練的文本數(shù)據(jù),對獲得的文本數(shù)據(jù)進(jìn)行規(guī)范化處理和分詞處理,生成預(yù)處理好的分詞文本;
S2,利用word2vec和Glove訓(xùn)練出所述分詞文本的詞向量,再通過擴(kuò)展所述分詞文本的詞向量特征的方式,獲得環(huán)境元嵌入作為文本語義的詞向量表示;
S3,利用BLSTM和動(dòng)態(tài)獲取上下文窗口相融合的神經(jīng)網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)上下文來抽取情感評論對象;
S4,基于局部注意力機(jī)制對具有不同情感語義貢獻(xiàn)度的詞語進(jìn)行權(quán)值分配,并通過BLSTM訓(xùn)練所述文本語義的詞向量,得到句子級特征向量;
S5,通過卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練所述句子級特征向量,得到全局的文本級特征向量;
S6,利用多分類函數(shù)Softmax對所述全局的文本級特征向量進(jìn)行分類,得到所述文本數(shù)據(jù)的情感傾向。
2.根據(jù)權(quán)利要求1所述的基于環(huán)境元嵌入和深度學(xué)習(xí)的情感傾向性分析方法,其特征在于:所述步驟S2包括如下步驟:
S21,利用word2vec訓(xùn)練得到所述分詞文本的詞向量w1,j,利用Glove訓(xùn)練得到所述分詞文本的詞向量w2,j,其中,j為當(dāng)前詞;
S22,將w1,j和w2,j進(jìn)行加權(quán)計(jì)算得到基于word2vec和Glove的環(huán)境元嵌入wj,所述wj滿足如下關(guān)系式:
wj=α1,jw′1,j+α2,jw′2,j,
其中,(i=1,2);hj∈R2m,hj為以w′i,j為輸入的BLSTM的第j隱藏層狀態(tài)向量;a,b為學(xué)習(xí)參數(shù),a∈R2m,b∈R;
其中,w′i,j=Piwi,j+bi,(i=1,2);Pi表示權(quán)值矩陣;bi表示偏置向量;
S23,將所述環(huán)境元嵌入wj作為文本語義的詞向量表示輸入層級神經(jīng)網(wǎng)絡(luò)情感分析模型中。
3.根據(jù)權(quán)利要求2所述的基于環(huán)境元嵌入和深度學(xué)習(xí)的情感傾向性分析方法,其特征在于:所述步驟S3包括如下步驟:
S31,使用最小化負(fù)對數(shù)似然函數(shù)對BLSTM和動(dòng)態(tài)獲取上下文窗口相融合模型進(jìn)行有指導(dǎo)的學(xué)習(xí);
S32,使用步驟S2中的所述環(huán)境元嵌入作為文本語義的詞向量進(jìn)行BLSTM和動(dòng)態(tài)獲取上下文窗口相融合模型的參數(shù)的學(xué)習(xí),隨機(jī)初始化參數(shù),隨機(jī)梯度下降更新參數(shù)值,以自動(dòng)學(xué)習(xí)上下文來抽取情感評論對象。
4.根據(jù)權(quán)利要求2所述的基于環(huán)境元嵌入和深度學(xué)習(xí)的情感傾向性分析方法,其特征在于:所述步驟S4包括如下步驟:
S41,使用雙向LSTM對步驟S2得到的環(huán)境元嵌入wj進(jìn)行編碼,所述編碼過程為:
S42,連接前后向LSTM得到隱狀態(tài),結(jié)合如下公式獲得詞語的分布式向量:
S43,使用計(jì)算各個(gè)詞向量的權(quán)重,其中,表示關(guān)聯(lián)能量,用于量化位置i的輸入和位置j的輸出之間的關(guān)系,hj為BLSTM的第j隱藏層狀態(tài)向量,為BLSTM的第i隱藏層狀態(tài)向量,為BLSTM的第k隱藏層狀態(tài)向量;D為設(shè)定的超參數(shù),位置pt為窗口的中心;
S44,使用加權(quán)公式對詞向量加權(quán)求和,得到句子級特征向量。
5.根據(jù)權(quán)利要求1所述的基于環(huán)境元嵌入和深度學(xué)習(xí)的情感傾向性分析方法,其特征在于:所述步驟S5具體為:將步驟S4得到的句子級特征向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入基元,經(jīng)過卷積層、下采樣層、全連接層的向前傳播卷積操作訓(xùn)練得到全局的文本級特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910197440.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種韻律預(yù)測方法及系統(tǒng)
- 一種基于KNN技術(shù)的語料庫文本分類方法
- 文本數(shù)據(jù)標(biāo)注方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 數(shù)據(jù)采集方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本的處理、文本分類模型的訓(xùn)練方法及裝置
- 文本加密方法及裝置、終端設(shè)備、存儲(chǔ)介質(zhì)
- 文本數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 富文本數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本分類模型構(gòu)建、文本分類方法及裝置
- 文本匹配方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





