[發明專利]一種基于深度學習的中文文本情感分析方法在審
| 申請號: | 201711307041.5 | 申請日: | 2017-12-11 |
| 公開(公告)號: | CN107944014A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 嚴勤;丁聰;陳葛恒;肖麗莎 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 南京縱橫知識產權代理有限公司32224 | 代理人: | 董建林 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 中文 文本 情感 分析 方法 | ||
1.一種基于深度學習的中文文本情感分析方法,其特征在于:包括以下步驟,
步驟1,訓練LSTM-MP模型和Softmax分類器;
具體過程如下:
獲取網絡文本;
對獲得的網絡文本進行預處理,得到網絡文本中的中文句子;
對中文句子進行中文分詞并構建詞向量詞典;
將若干中文句子進行人工標注,作為LSTM-MP模型實驗數據,其余中文句子作為LSTM-MP模型訓練數據;
用LSTM-MP模型訓練數據訓練LSTM-MP模型;
用訓練好的LSTM-MP模型將LSTM-MP模型實驗數據全部轉換為句向量;
將若干句向量作為Softmax分類器訓練數據,其余句向量作為Softmax分類器測試數據;
用Softmax分類器訓練數據訓練Softmax分類器,用Softmax分類器測試數據測試訓練好的Softmax分類器;
步驟2,用訓練好的LSTM-MP模型和Softmax分類器進行情感分析。
2.根據權利要求1所述的一種基于深度學習的中文文本情感分析方法,其特征在于:設計多線程爬蟲進行網絡文本獲取的過程為,
選取適當的網站首頁URL初始化爬蟲的URL列表;
獲取各網站首頁的HTML文檔,解析出HTML文檔中消息對應的URL,對消息對應的URL去重后添加至URL列表;
若有新發布的消息,則將新消息對應的URL添加至URL列表;
根據 URL獲取對應的HTML文檔;
將獲取到的HTML文檔,利用信息抽取技術進行信息抽取,抽取出頁面的信息正文部分后,按照制定格式存入本地數據庫。
3.根據權利要求1所述的一種基于深度學習的中文文本情感分析方法,其特征在于:網絡文本進行預處理的過程為,對網絡文本中的轉義符進行替換,對網絡文本中的不規范標點符號進行替換。
4.根據權利要求1所述的一種基于深度學習的中文文本情感分析方法,其特征在于:對中文句子進行中文分詞并構建詞向量詞典,具體過程為,
對中文句子進行中文分詞;
詞向量學習工具調試;
將中文分詞得到的中文詞語輸入詞向量學習工具,進行詞向量詞典構建。
5.根據權利要求4所述的一種基于深度學習的中文文本情感分析方法,其特征在于:選用最佳匹配法進行中文分詞。
6.根據權利要求1所述的一種基于深度學習的中文文本情感分析方法,其特征在于:將LSTM-MP模型訓練數據轉換為詞向量序列,然后訓練LSTM-MP模型;
將LSTM-MP模型實驗數據轉換為詞向量序列,然后用訓練好的LSTM-MP模型將其轉換為句向量。
7.根據權利要求1所述的一種基于深度學習的中文文本情感分析方法,其特征在于:用訓練好的LSTM-MP模型和Softmax分類器進行情感分析的過程為,
獲取需分析的網絡文本;
對需分析的網絡文本進行預處理,得到需分析的中文句子;
對需分析的中文句子進行中文分詞并構建詞向量詞典;
將需分析的中文句子轉換為詞向量序列;
用訓練好的LSTM-MP模型將詞向量序列轉換為句向量;
用訓練好的Softmax分類器將句向量進行情緒分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711307041.5/1.html,轉載請聲明來源鉆瓜專利網。





