[發明專利]一種長文本新聞輿情的情感極性的分析方法有效
| 申請號: | 202011291196.6 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112100388B | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 唐大鵬;郭柏龍;陳大龍 | 申請(專利權)人: | 南京華蘇科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 顧伯興 |
| 地址: | 211300 江蘇省南京市高淳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 新聞 輿情 情感 極性 分析 方法 | ||
本發明公開了一種長文本新聞輿情的情感極性的分析方法,包括以下步驟:S1收集文本數據作為訓練樣本,S2對步驟S1中收集的訓練樣本的數據進行數據清洗,并對清洗后的訓練樣本的數據中的特殊字符進行處理,獲得數據集;S3切分數據集,將訓練樣本按照比例切分為訓練集和測試集;S4搭建基于表征模型的深度學習網絡并加載預訓練參數;S5搭建長文本情感極性分析網絡模型;S6修改訓練樣本數據結構;S7模型訓練,采用分層抽樣與K折交叉驗證的方法,在分層抽樣時保證每折的樣本數據集中的樣本比例與原始數據比例一致,每折模型結果保存在驗證集得分最高的模型,綜合K折模型對于測試集進行測試,取平均概率作為該模型的測試結果。
技術領域
本發明屬于本發明屬自然語言處理技術領域,尤其是涉及一種基于變形器(Transformer)結構的長文本新聞輿情情感極性分析的方法。
背景技術
判斷新聞輿情的情感極性在自然語言處理領域可以抽象為文本分類問題,即通過標題與正文來判斷該新聞所表達的情感極性。目前用于情感分析的方法主要分為以下三種:
1、基于情感詞典的方法。基于情感詞典的傳統模型方法流程是先構建情感詞典,通過該詞典來對預分析文本中的字詞進行情感傾向以及情感強弱的判定,從而實現文本整體的情感分類。該方法存在的局限性:(1)情感詞典對未收納的詞匯無法處理(2)需要耗費大量的人工來制作高質量的情感詞典(3)同樣的詞匯在不同領域表現出的情感傾向可能相差很大。
2、基于機器學習的方法。基于機器學習的方法可以通過對樣本數據進行有效特征提取,從而來建立情感分類模型。該方法的優點是不受情感詞典規模的限制,但其缺點是需要耗費大量的人工成本設計文本特征。
3、基于深度學習的方法。基于深度學習的方法能夠自動將低階特征組合、變化、提取生成高階特征,因此成為了自然語言處理領域的主流方法。常見的方法有遞歸神經網絡(RNN, Recursive Neural Network)、卷積神經網絡(CNN,Convolutional NeuralNetwork)、長短期記憶網絡(LSTM,Long Short-Term Memory)以及雙向長短期記憶網絡(Bi-LSTM,Bi-directional Long Short-Term Memory)等。隨著變形器(Transformer)結構的出現,以基于變形器的雙向編碼器(BERT)為代表的深度雙向預訓練語言模型開始占領自然語言處理各項任務的頭榜。但當前的中文預訓練語言模型受限于模型文本最大長度的限制,在處理篇章級的長文本時通常采取直接截斷的方法,失去了長文本中的很多有效信息。
因此,有必要開發一種長文本新聞輿情的情感極性的分析方法,將長文本通過變形器(Transformer)編碼,再通過雙向門限循環單元網絡(Bi-GRU)來分析長文本新聞輿情情感極性的方法,能夠解決傳統方法準確率較低的問題。
發明內容
本發明要解決的技術問題是,提供一種長文本新聞輿情的情感極性的分析方法,將長文本通過變形器(Transformer)編碼,再通過雙向門限循環單元網絡(Bi-GRU)來分析長文本新聞輿情情感極性的方法,能夠解決傳統方法準確率較低的問題。
為了解決上述技術問題,本發明采用的技術方案是:該長文本新聞輿情的情感極性的分析方法,包括以下步驟:
S1:收集文本數據作為訓練樣本;
S2:對步驟S1中收集的訓練樣本的數據進行數據清洗,并對清洗后的訓練樣本的數據中的特殊字符進行處理,獲得數據集;
S3:切分數據集,將訓練樣本按照比例切分為訓練集和測試集,在切分數據集時保證訓練集和測試集中的情感極性標簽的比例一致;
S4:搭建基于表征模型的深度學習網絡并加載預訓練參數;
S5:搭建長文本情感極性分析網絡模型;
S6:修改訓練樣本數據結構;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京華蘇科技有限公司,未經南京華蘇科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011291196.6/2.html,轉載請聲明來源鉆瓜專利網。





