[發明專利]一種基于注意力機制的兩步式輕量級文本分類方法在審
| 申請號: | 202211577299.8 | 申請日: | 2022-12-09 |
| 公開(公告)號: | CN115687627A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 尹春勇;徐朋 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F18/241;G06F18/214;G06N3/045;G06N3/044;G06N3/092 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 胡杰 |
| 地址: | 210032 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 兩步式 輕量級 文本 分類 方法 | ||
本發明公開了一種基于注意力機制的兩步式輕量級文本分類方法,涉及文本分類技術領域,適用于部署在邊緣設置中,利用一種堆疊式的輕量級循環神經網絡,該網絡是一種特殊的循環神經網絡,可以全面地學習到輸入的文本數據之間的關系;在保證模型準確率的同時,也保證了模型的輕量性;一方面利用輕量級的循環神經網絡來探索文本數據的關系,避免了梯度消失和梯度爆炸問題的發生;同時也利用自注意力機制和通道注意力機制,結合輕量級循環神經網絡來進一步探索文本數據之間的關系,一定程度上克服了模型模糊邊界的問題,因此本文本分類方法具有更高的分類效率和更高的分類準確率。
技術領域
本發明涉及文本分類技術領域,特別是涉及一種基于注意力機制的兩步式輕量級文本分類方法。
背景技術
文本分類是各種自然語言處理(Natural Language Processing,NLP)應用中的基本任務之一,如情感分析、話題標簽以及問題回答,盡管已證明有多種方法在監督文本分類中取得了成功,但在應用于對沒有標記訓練數據的增量新興類別進行預測時,它們往往會失效;文本分類的標準范式依賴于監督學習,眾所周知,標記數據的大小和質量將會強烈影響其性能。
遞歸神經網絡(Recurrent Neural Network,RNN)具有對可變長度的連續數據進行建模的能力,已被廣泛應用于解決文本分類問題,在應用RNN對文本數據的語義進行分類時,有兩個關鍵的技術挑戰。
首先,文本的長度從幾十到幾千字不等,對于長的文本數據,由于梯度爆炸和消失的問題,RNN的有效性會受到影響;其次,文本數據通常是分層結構,理解其實際語義需要融合來自不同顆粒度的文本成分的信息,即單詞、短語以及句子;雖然明確地對原始文本的層次信息進行建模會對分類的準確性產生有益的影響,但RNN本質上涉及的是按順序排列的普通結構,因此對捕捉文本數據中的層次信息是有限的。
為了解決第一個挑戰,人們提出了各種方法來捕捉長文本中單詞之間的長期依賴關系,其中一種嘗試是長短期記憶(Long Short-Term Memory,LSTM)和門控循環單元(GateRecurrent Unit,GRU)中使用的門限機制,與普通的RNN相比,閘門使遞歸架構能夠保持相對較長的記憶,從而促進長期依賴關系的學習;另一種嘗試是試圖修改不同步驟之間的連接拓撲結構,關鍵的想法是增加從早期步驟到后期步驟的跳過連接,以便通過超越中間步驟來實現更好的信息和梯度流動;在實踐中,使用梯度規范剪裁策略可以大大克服爆炸性梯度問題,但梯度消失問題仍有待解決。
基于Transformer的預訓練語言模型的出現,如BERT模型(BidirectionalEncoder Representation from Transformers)重塑了自然語言處理的格局,使得大多數自然語言處理任務的性能顯著提高,包括文本分類;這些模型通常依賴于在通用掩蔽語言建模(Masked Language Modeling ,MLM)任務上用大規模異構語料庫進行的預訓練,即預測在原始文本中被掩蔽的單詞。
最近最流行的文本分類方法是基于圖的模型,如TextGCN,它首先在語料庫上誘導出一個合成的詞-文檔共現圖,隨后應用圖神經網絡(Graph Neural Network,GNN)來執行分類任務;除TextGCN外,還有HeteGCN、TensorGCN以及HyperGAT等后續作品,我們統稱為基于圖的模型。
在對文本類型進行分類時,計算機處理每一段文本的時間過長,就會導致效率太低,分析文本類型的時間將顯示不出計算機分析文本的優勢;目前大多數利用計算機進行文本分類所取得的分類準確率都不夠高,很多類似的文類類型,計算機模型很容易判斷錯誤,從而導致準確率較低。
發明內容
為了解決以上技術問題,本發明提供一種基于注意力機制的兩步式輕量級文本分類方法,包括以下步驟
S1、對文本數據進行預處理,將文本數據轉為詞向量X={Xi,i=1,2,…,n},其中,Xi表示每一段文本數據的詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211577299.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型的投影家居吊燈
- 下一篇:基于Jmeter的接口自動化測試方法和裝置





