[發(fā)明專利]一種基于深度學(xué)習(xí)的中文文本情感分析方法在審
| 申請?zhí)枺?/td> | 201711307041.5 | 申請日: | 2017-12-11 |
| 公開(公告)號: | CN107944014A | 公開(公告)日: | 2018-04-20 |
| 發(fā)明(設(shè)計)人: | 嚴勤;丁聰;陳葛恒;肖麗莎 | 申請(專利權(quán))人: | 河海大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司32224 | 代理人: | 董建林 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 中文 文本 情感 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于深度學(xué)習(xí)的中文文本情感分析方法,屬于自然語言處理和深度學(xué)習(xí)技術(shù)領(lǐng)域。
背景技術(shù)
互聯(lián)網(wǎng)的迅速發(fā)展使微博和社交網(wǎng)絡(luò)成為流行的溝通交流形式。數(shù)以億計反映人們觀點和態(tài)度的信息每天通過Twitter、Facebook等平臺發(fā)布并和所有人分享,這就給監(jiān)控和分析私人企業(yè)或社會公共領(lǐng)域觀點、情緒提供了機會。
文本情感分析是對人們的觀點、情緒、態(tài)度以及對諸如產(chǎn)品、服務(wù)、組織、事件等實體情感傾向做出有效分析然后進一步做信息歸納推理的一類技術(shù)。針對網(wǎng)絡(luò)媒介產(chǎn)生的海量數(shù)據(jù),提取出有價值的情緒和觀點,并對其做出準確的文本情感分析,在諸多領(lǐng)域都有應(yīng)用價值,例如:企業(yè)可以依據(jù)與其產(chǎn)品相關(guān)的反饋情緒進行售后服務(wù)調(diào)整及市場策略制定;政府可以根據(jù)社交平臺的大量文本情緒分析制定出更加符合群眾需求的政策制度;金融方面也可以根據(jù)各種金融消息的情緒觀點提取挖掘進行某一金融市場的趨勢預(yù)測等。
文本(英文)情感分析方面的研究在國外進行的比較早,成果也比較成熟,比如:Turney和Pang分別用不同的方法實現(xiàn)產(chǎn)品和電影評論的極性分類,隨后Pang和Snyder又將多種方法結(jié)合再次進行了嘗試。除此之外,Pang和Lee還將電影評論的極性分類基礎(chǔ)任務(wù)擴展到了星級評定預(yù)測,同時Snyder將飯店評論做深層分析后用來預(yù)測飯店各方面的等級評定例如食物、環(huán)境等(共5個等級)。Gruhl等人通過對在線網(wǎng)絡(luò)聊天信息的情感分析預(yù)測圖書銷售趨勢,Mishne等人從博客中抓取具有情緒的信息來預(yù)測電影票房。然而由于英文與中文文本結(jié)構(gòu)的差異性,中文文本的情感分析研究難度要大得多,再加上起步晚、標注文本預(yù)料有限、技術(shù)方法落后等因素,中文文本情感分析的研究仍有很大的提升空間。
目前中文文本情感分析方法目前大部分基于規(guī)則和有監(jiān)督基于機器學(xué)習(xí),局限性有以下幾個方面:(1)由于對語言知識規(guī)則因人而異,情感判斷規(guī)則制定受制定人研究水平限制;(2)一些方法在句子特征提取時,憑經(jīng)驗人為進行特征選取,因此情感分析效果受人為因素影響比較大等。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提供了一種基于深度學(xué)習(xí)的中文文本情感分析方法。
為了達到上述目的,本發(fā)明所采用的技術(shù)方案是:
一種基于深度學(xué)習(xí)的中文文本情感分析方法,包括以下步驟,
步驟1,訓(xùn)練LSTM-MP模型和Softmax分類器;
具體過程如下:
獲取網(wǎng)絡(luò)文本;
對獲得的網(wǎng)絡(luò)文本進行預(yù)處理,得到網(wǎng)絡(luò)文本中的中文句子;
對中文句子進行中文分詞并構(gòu)建詞向量詞典;
將若干中文句子進行人工標注,作為LSTM-MP模型實驗數(shù)據(jù),其余中文句子作為LSTM-MP模型訓(xùn)練數(shù)據(jù);
用LSTM-MP模型訓(xùn)練數(shù)據(jù)訓(xùn)練LSTM-MP模型;
用訓(xùn)練好的LSTM-MP模型將LSTM-MP模型實驗數(shù)據(jù)全部轉(zhuǎn)換為句向量;
將若干句向量作為Softmax分類器訓(xùn)練數(shù)據(jù),其余句向量作為Softmax分類器測試數(shù)據(jù);
用Softmax分類器訓(xùn)練數(shù)據(jù)訓(xùn)練Softmax分類器,用Softmax分類器測試數(shù)據(jù)測試訓(xùn)練好的Softmax分類器;
步驟2,用訓(xùn)練好的LSTM-MP模型和Softmax分類器進行情感分析。
設(shè)計多線程爬蟲進行網(wǎng)絡(luò)文本獲取的過程為,
選取適當?shù)?a title="鉆瓜網(wǎng) 企業(yè)網(wǎng)站">網(wǎng)站首頁URL初始化爬蟲的URL列表;
獲取各網(wǎng)站首頁的HTML文檔,解析出HTML文檔中消息對應(yīng)的URL,對消息對應(yīng)的URL去重后添加至URL列表;
若有新發(fā)布的消息,則將新消息對應(yīng)的URL添加至URL列表;
根據(jù)URL獲取對應(yīng)的HTML文檔;
將獲取到的HTML文檔,利用信息抽取技術(shù)進行信息抽取,抽取出頁面的信息正文部分后,按照制定格式存入本地數(shù)據(jù)庫。
網(wǎng)絡(luò)文本進行預(yù)處理的過程為,對網(wǎng)絡(luò)文本中的轉(zhuǎn)義符進行替換,對網(wǎng)絡(luò)文本中的不規(guī)范標點符號進行替換。
對中文句子進行中文分詞并構(gòu)建詞向量詞典,具體過程為,
對中文句子進行中文分詞;
詞向量學(xué)習(xí)工具調(diào)試;
將中文分詞得到的中文詞語輸入詞向量學(xué)習(xí)工具,進行詞向量詞典構(gòu)建。
選用最佳匹配法進行中文分詞。
將LSTM-MP模型訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為詞向量序列,然后訓(xùn)練LSTM-MP模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711307041.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





