[發明專利]基于和積網絡深度自動編碼器的短文本情感分析方法有效
| 申請號: | 201710573654.7 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107357899B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 王生生;張航;賴永 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 長春市恒譽專利代理事務所(普通合伙) 22212 | 代理人: | 李榮武 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 深度 自動 編碼器 文本 情感 分析 方法 | ||
本發明公開一種基于和積網絡深度自動編碼器的短文本情感分析方法,該方法包括以下步驟:一、預處理短文本數據;二、利用doc2vec模型訓練句向量;三、利用和積網絡深度編碼器對句向量進行編碼,得到句向量的分層抽象特征;四、利用最大積網絡深度解碼器對分層抽象特征解碼,將解碼后的特征與原始句向量特征對比,計算重構誤差。調整和積網絡深度自動編碼器參數使得重構誤差最小。得到最優的和積網絡深度編碼器,由它獲得最優分層抽象特征;五、利用最優分層抽象特征進行在線結構學習生成一個和積網絡結構,使用少量帶標簽的短文本數據微調和積網絡,使用在線參數學習算法不斷調整網絡參數,輸入測試集,由訓練好的和積網絡獲得情感分類類別。
技術領域
本發明涉及和積網絡和短文本情感分析。
背景技術
隨著社交網絡的不斷發展,人們更愿意通過社交網絡來表達自己的觀點,從而通過對用戶在線評論了解用戶的情感傾向得到了學術界的廣泛關注。但這些用戶的在線評論都是字數較少的短文本。短文本提供的信息量少,口語化嚴重,提升了情感分析的難度。
當前大多數基于有監督學習短文本情感分析的研究都取得了不錯的成績,依賴于大量人工標注的數據,使得基于有監督學習的系統需要付出很高的標注代價。相反的,無監督學習不需要人工標注數據訓練模型,是降低標注代價的解決方案,但由于其完全依賴算法學習結果,往往效果不佳,難以達到實際要求。而半監督學習則是采取綜合利用少量已標注樣本和大量未標注樣本來提高學習性能的機器學習方法,它兼顧了人工標注成本和學習效果,被視為一種折中方案。
目前,深度自動編碼器在半監督短文本情感分析領域取得了突破性進展,深度自動編碼器的應用免去了人工提取數據特征的巨大工作量,提高了特征提取的效率,降低了原始輸入的維數,得到數據的逆向映射特征,展現了從少數類標樣本和大量無標簽數據中學習輸入數據本質特征的強大能力,并將學習到的特征分層表示。但深度自動編碼器也存在很多局限性:1.其結構都是由不同類型的建模單元堆疊而成,這些建模單元均有理論缺陷,所以它們構建的深度結構不完善。2.其無監督逐層貪心訓練只是在一定程度上解決了局部最小問題,沒有全局優化,隨著隱藏層數的增加,梯度稀釋越發嚴重,其訓練極其繁瑣,需要很多技巧。3.其模型結構往往是固定的,其未考慮短文本數據本身的關聯性,無法完美擬合不同類型的短文本數據。和積網絡(Sum-Product Networks)是一種新型深度概率前饋神經網絡模型,其結構的遞歸概率語義具有強大的理論支持,由其構成的深度結構很完善。和積網絡能夠容易的學習網絡結構與參數,訓練時間遠快于現有的深度自動編碼器。和積網絡模型的結構學習能很好的擬合數據的表示,不同于現有的深度自動編碼器需利用一個先驗結構。基于和積網絡模型的這些優點,本文提出改進和積網絡模型用作深度編碼器,提出替換Sum結點為Max結點的最大積網絡(Max-Product Networks)模型用作深度解碼器。
綜上所述,我們提出的基于和積網絡深度自動編碼器的短文本情感分析方法。首先,預處理在線爬取的短文本數據,然后利用doc2vec模型預訓練短文本句向量,再通過和積網絡深度自動編碼器對句向量提取分層抽象特征,最后將提取的分層抽象特征向量利用和積網絡進行情感分析。
發明內容:
為解決現有的深度自動編碼器的局限性,如模型建模單元存在理論缺陷,模型訓練困難,模型結構單一無法擬合不同類型的短文本數據等。本發明提出了一種基于和積網絡深度自動編碼器的短文本情感分析方法,發明內容主要包括:本短文本情感分析的流程框架,預處理在線爬取的短文本數據,改進和積網絡作為深度編碼器,提出替換和積網絡中Sum節點為Max節點的最大積網絡作為深度解碼器,以及將和積網絡應用到短文本情感分析領域。
一種基于和積網絡深度自動編碼器的短文本情感分析方法,其特征在于:至少包括以下步驟:
步驟一、預處理在線爬取的短文本數據;
采用Porter算法、正則表達式方法等對在線爬取的無標簽短文本數據進行預處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710573654.7/2.html,轉載請聲明來源鉆瓜專利網。





