[發明專利]一種基于改進膠囊網絡的文本分類方法有效
| 申請號: | 202011126137.3 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112231477B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 季陳;葉慧雯;王子民;趙子涵;楊玉東;郭新年 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/205;G06F40/284;G06F40/289;G06F40/30;G06N3/0464;G06N3/0442;G06N3/045;G06N3/08 |
| 代理公司: | 淮安市科文知識產權事務所 32223 | 代理人: | 李鋒 |
| 地址: | 223005 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 膠囊 網絡 文本 分類 方法 | ||
本發明涉及自然語言處理技術領域,公開了一種基于改進膠囊網絡的文本分類方法,包括文本數據預處理、文本建模將文本數據轉換成向量數據,利用膠囊網絡的局部語義特征提取模型利用雙層膠囊層進行局部特征提取,并通過構建BiLSTM模型對文本向量進行上下文信息提取,最后通過softmax函數進行文本分類。與現有技術相比,本發明通過改進膠囊網絡的BiLSTM?CapsNet混合模型進行文本情感分析分類,在使用膠囊網絡進行局部特征提取時,使用兩層特征提取,有效的提高了短文本情感分析的準確率,提高了文本分類精度,該方法在細粒度和粗粒度情感分析實驗中相較于其他方法都具有較明顯的優勢。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于改進膠囊網絡的文本分類方法。
背景技術
隨著互聯網技術的快速發展,微信、QQ、微博等社交媒體用戶數數以億計,由此產生了大量的文本數據,其內容包括新聞資訊、熱點事件、產品評論、娛樂八卦等眾多方面,能夠直觀的反應用戶的情感傾向。近年來,文本情感分析在政府輿情監控、企業管理決策、個人情緒管理等應用中發揮著重要的作用。
現有的文本分類研究基于不同的監督環境產生了三種主要的方法,非監督環境下的基于情感詞典方法、監督環境下的基于機器學習方法和基于神經網絡方法?;谇楦性~典方法方面,中國專利CN?111414755?A公開了一種基于細粒度情感詞典的網絡情緒分析方法,根據現有的情感資料構建細粒度微博情感詞典,其存在實時性差的問題。中國專利CN105005553?B公開了一種基于詞頻統計的方法構建基礎情感詞典,對候選詞語與基礎情感詞典中詞匯的統計相關性計算來判別它的情感傾向,從而擴充基礎詞典,同樣實時性差。基于機器學習方法方面,中國專利CN?110580286?A公開了一種基于類間信息熵的文本特征選擇方法,計算出每個特征對類別的相關性大小,得分高的部分特征用于文本表示可以提升分類效果,但人為構造的文本特征過多。基于神經網絡方法方面,中國專利CN?107943967?B公開了一種基于多角度卷積神經網絡與循環神經網絡的文本分類算法,捕獲不同的文本高層特征表達,提高分類效果,但是循環神經網絡存在梯度消失的問題,卷積神經網絡存在不能很好的提取情感詞在全文中的位置語義信息的問題。
目前,現有的文本分類方法普遍存在文本分類精度不高、短文本情感分析的準確率低,不能提取情感詞在全文中的位置語義信息問題。如何解決上述問題是目前急需解決的問題。
發明內容
發明目的:針對現有技術中存在的問題,本發明提供一種基于改進膠囊網絡的文本分類方法,通過一種改進膠囊網絡的BiLSTM-CapsNet混合模型進行文本情感分類,該模型由BiLSTM模型和改進CapsNet模型組成,結合BiLSTM模型和改進CapsNet模型構成BiLSTM-CapsNet混合模型對數據集進行訓練,有效的提高了短文本情感分析的準確率,提高了文本分類精度。
技術方案:本發明提供了一種基于改進膠囊網絡的文本分類方法,包括如下步驟:
步驟1:獲取文本數據并對其進行文本標簽設定,將其分為訓練文本數據與測試文本數據,對數據預處理,去除噪聲,保留具有語義特征的詞匯;
步驟2:對所述去除了噪聲的文本數據進行文本建模,將文本數據中的詞匯轉化成詞向量,并將詞向量進行拼接,形成文檔向量;
步驟3:對步驟2中所述文檔向量利用膠囊網絡構建局部語義特征提取模型,進行局部語義特征提取,所述局部語義特征提取模型包括一層卷積層、兩層膠囊層以及一個全連接層,卷積層通過卷積操作來提取各個位置的局部特征,兩層膠囊層使用動態路由操作代替池化操作,進行兩次膠囊層的特征提?。蝗B接層用于文本分類;
步驟4:構建BiLSTM模型,對所述步驟3中膠囊網絡輸出的文本向量進行上下文信息提??;
步驟5:通過步驟3膠囊網絡的全連接層和softmax函數進行文本分類。
進一步地,所述步驟1中數據預處理包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011126137.3/2.html,轉載請聲明來源鉆瓜專利網。





