[發明專利]基于多模型融合的新聞情感分析方法在審
| 申請號: | 202011400913.4 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112507723A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 張琨;劉志敏;張李林清;孫琦;李尋 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/295;G06F16/951;G06N3/04 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模型 融合 新聞 情感 分析 方法 | ||
1.一種基于多模型融合的新聞情感分析方法,其特征在于,包括以下步驟:
步驟1:面向事件利用爬蟲技術,爬取官方新聞網站相關英文新聞,得到原始新聞語料庫;
步驟2:對爬取到的英文新聞文本進行預處理;
步驟3:根據預處理后的新聞語料庫中的英文新聞文本信息,建立面向國家、人物、組織、事件的實體知識庫,并利用建立的實體知識庫對預處理后的英文新聞文本進行情感傾向標注,并將標注為情感句的英文新聞文本分為三級進行標注;
步驟4:利用三級標注后的英文新聞文本對情感分析模型進行訓練,使其具備將預處理后的英文新聞文本進行三級分類的功能;
步驟5:對爬取的英文新聞文本按步驟2、步驟3進行預處理和情感傾向標注,將標注為情感句的英文新聞句輸入訓練好的情感分析模型,獲得分類結果。
2.根據權利要求1所述的基于多模型融合的新聞情感分析方法,其特征在于,對爬取到的英文新聞文本進行預處理包括對爬取到的新聞語料進行分句、去停用詞、標準化。
3.根據權利要求1所述的基于多模型融合的新聞情感分析方法,其特征在于,所述實體知識庫中存儲人物、組織的英文正式名稱、別稱、國家名稱、熱點事件。
4.根據權利要求1所述的基于多模型融合的新聞情感分析方法,其特征在于,利用建立的實體知識庫對預處理后的英文新聞文本進行情感傾向標注的原則為:
當一句新聞中出現了n個知識庫實體時標注為情感句,n為可調整的參數。
5.根據權利要求1所述的基于多模型融合的新聞情感分析方法,其特征在于,所述情感分析模型(CNN-BiGRU)包括詞嵌入層、Dropout層、卷積神經網絡、池化層、雙向門控循環單元、輸出層,所述詞嵌入層用于將輸入的一句話轉換為向量;所述Dropout層設置在詞嵌入層后;所述卷積神經網絡用于對Dropout層輸出的詞向量進行卷積操作,獲得詞與詞之間的局部特征;所述池化層用于對卷積后的特征進行池化操作;所述雙向門控循環單元包括一個前向的GRU單元和一個后向的GRU單元,所述輸出層用于將特征向量進行全連接后輸入到分類器中得到分類結果。
6.根據權利要求5所述的基于多模型融合的新聞情感分析方法,其特征在于,所述卷積神經網絡卷積操作得到的局部特征為:
ci=f(w·xi:i+h-1+b)
其中,b表示偏置量,f(·)表示非線性卷積核函數,xi:i+h-1表示生成的向量矩陣中第i到第i+h-1行,w表示權重矩陣。
7.根據權利要求5所述的基于多模型融合的新聞情感分析方法,其特征在于,GRU單元體用于計算文本特征向量,具體計算公式為:
zt=σ(wz·[ht-1,xt])
rt=σ(wr·[ht-1,xt])
其中,xt表示t時刻的輸入,ht-1表示t-1時刻GRU單元體的輸出,w表示權重矩陣,zt是控制更新的門控,rt是控制重置的門控,表示候選隱藏狀態,ht表示最后輸出的文本特征向量。
8.根據權利要求5所述的基于多模型融合的新聞情感分析方法,其特征在于,采用Concatenate方式對卷積神經網絡輸出的句子特征fc、雙向門控循環單元輸出的句子特征fg進行融合處理后輸入輸出層,融合處理后的特征為:
9.根據權利要求5所述的基于多模型融合的新聞情感分析方法,其特征在于,分類器的輸出為:
其中,是權重矩陣,是權重偏差,是每個類別的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011400913.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種2-氟-5-溴碘苯的制備方法
- 下一篇:一種食品包裝用封口裝置





