[發明專利]網絡輿情文本信息情感極性分類處理系統及方法在審
| 申請號: | 202010007184.X | 申請日: | 2020-01-03 |
| 公開(公告)號: | CN111209401A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 裴慶祺;王玉燕 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 何畏 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 輿情 文本 信息 情感 極性 分類 處理 系統 方法 | ||
1.一種網絡輿情文本信息情感極性分類處理方法,其特征在于,所述基于BERT預訓練模型的網絡輿情文本情感分類信息處理方法包括以下步驟:
第一步,獲取數據集:爬蟲收集網絡文本數據,對數據集進行情感極性打標或下載網上公開數據集;
第二步,文本預處理:對數據進行預處理,去除沒有意義的詞,繁體字轉換為簡體字,去標點符號等,建立Token,將Token轉化為列表,通過填充統一輸入文本長度,將數據分為訓練集和測試集;
第三步,詞嵌入模型:通過BERT預訓練模型fine-tuning的方式構建詞向量,步驟包括加載BERT中文預訓練模型,讀取數據集的文本數據,訓練模型,調整模型參數,獲得并保存最佳詞向量模型;
第四步,分類模型構建:情感極性分類模型是在Bi-LSTM模型上加入Attention層,最后用softmax方式完成文本情感極性的輸出;
第五步,模型訓練與優化:讀取測試集數據,輸入模型并進行測試,計算模型情感極性預測準確率,根據測試集的結果,調整模型參數,獲得并保存最佳情感極性分析模型;
第六步,情感極性分類:加載訓練好的模型,輸入待分類文本數據,獲取文本情感極性結果。
2.如權利要求1所述的基于BERT預訓練模型的網絡輿情文本信息情感分類處理方法,其特征在于,所述第一步中獲取數據集包括以下步驟:a)通過網絡爬蟲、社交媒體API接口獲取海量數據作為原始預料,b)標注為正向、中性、負向三類,其中對網絡輿情導向產生積極正面影響的標注為正;客觀稱述事實,不帶個人情緒的文本標注為中性;對網絡輿情導向產生負面影響的標注為負。
3.如權利要求1所述的基于BERT預訓練模型的網絡輿情文本信息情感分類處理方法,其特征在于,所述第二步中文本預處理包括以下步驟:a)去除沒有意義的詞、標點符號和英文字母,繁體字轉換為簡體字等,b)建立Token,將Token轉化為列表,c)通過填充統一文本長度,d)將數據分為訓練集和測試集。
4.如權利要求1所述的網絡輿情文本信息情感極性分類處理方法,其特征在于,所述第三步中詞嵌入原理是通過BERT預訓練模型fine-tuning的方式構建詞向量,步驟包括:a)加載Google官方的BERT中文預訓練模型,b)讀取自己的文本數據集,c)訓練模型,調整模型參數,獲得并保存最佳詞向量模型。需要注意的是fine-tuning的學習率要小于官方學習率。
5.如權利要求1所述的網絡輿情文本信息情感極性分類處理方法,其特征在于,所述第三步中BERT中文預訓練模型使用Transformer模型的encoding部分構建詞向量,其優勢在于所有字并行計算,利用位置嵌入來理解語言的順序,計算了句中每個字與其他字之間的相關性,解決了句子長度詞向量構建精確度的影響,每個Transoformer單元的encoding部分包括兩個子層:注意力層和全連接層;其中每個子層都加了殘差連接和歸一化,最終輸出詞向量矩陣。
6.如權利要求1所述的網絡輿情文本信息情感極性分類處理方法,其特征在于,所述第四步中分類模型是在Bi-LSTM模型上加入Attention層,然后用softmax完成文本情感極性的輸出,步驟包括:a)使用Bi-LSTM模型在低三步得到的詞向量矩陣基礎上提取句子特征,b)用Attention從每個句子中捕獲最重要的語義信息,c)用softmax完成文本情感極性的預測。
7.如權利要求1所述的網絡輿情文本信息情感極性分類處理方法,其特征在于,所述第五步中模型訓練與優化步驟包括:a)讀取測試集數據,輸入模型并進行測試,b)計算模型情感極性預測準確率,c)根據測試集的結果,調整模型參數,獲得并保存最佳情感極性分類模型。
8.如權利要求1所述的網絡輿情文本信息情感極性分類處理方法,其特征在于,所述第六步情感極性分類模塊中步驟包括:a)加載訓練好的模型,b)輸入自己需要進行情感極性分析的數據,c)通過模型分析,得到文本情感極性的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010007184.X/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





