[發明專利]一種基于深度學習的文本分類方法在審
| 申請號: | 202011153557.0 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112269876A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 周末;宋玉蓉;宋波 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 文本 分類 方法 | ||
本發明公開了一種基于深度學習的文本分類方法,通過限制信息流長度將位置不變性引入雙向門控循環單元,彌補了循環神經網絡在處理文本分類任務中對長序列文本建模的壓力過大且可能忽略局部重要特征以及卷積神經網絡不能捕獲遠距離上下文依賴關系的缺陷,從而可以得到有效的文本表示向量,并通過自注意力機制加大對重要特征的權重分配進一步優化文本表示。本發明能夠有效提高各類分類任務的準確度。
技術領域
本發明涉及一種基于深度學習的文本分類模型的提出和實現,屬于自然語言處理和人工智能領域。
背景技術
文本分類是一項傳統的NLP子任務,有效前期的分類問題主要集中在基于傳統機器學習算法的研究及人工特征的提取,隨著數據的增長和特征的增加,依賴傳統算法已經不能滿足需求。近年來,深度學習算法在各大計算機領域都取得長足進步,特別在圖像處理、語音識別及自然語言處理等問題做出巨大貢獻。當今大多數網絡模型都是基于CNN或RNN建立的。下面,我們列出了一些在文本分類領域具有代表性的網絡模型。
循環神經網絡是一種常用于處理序列數據的網絡結構,適用于自然語言、語音等領域。因此很多基于RNN的模型都被用于處理文本問題有學者利用LSTM建模句子之間的關系。也有人等利用BGRU建模文本處理情感分析任務。卷積神經網絡模型特有的局部相關和位置不變性使其適用于自然語言處理任務。之后,有人首次將1D CNN用于詞性、命名實體識別和語義角色標注等任務中。有人提出通過用帶有多種卷積過濾器來編碼句子以進行句子分類任務。為了捕捉詞語間的關系提出了一種含動態k-max池化的新型CNN模型。淺層CNN不能很好的編碼長段信息。因此,在文本分類任務中運用深層CNN以達到更好的性能表現。
以上方法的CNN和RNN神經網絡的模型都可以捕獲上下文依賴關系,但未曾考慮對文本中關鍵信息對文本分類準確率的影響。2014年,谷歌團隊首次提出采用內容注意力機制做圖像分類,有效提高了圖像識別精度。隨后,有學者將注意力機制應用到自然語言處理(natural language processing,NLP)領域,使用注意力機制將源語言端每個詞學到的表達和預測翻譯的詞聯系起來,提高了翻譯的準確率。2017年,谷歌提出自注意力機制并用于機器翻譯取得了更好的翻譯效果。自注意力機制依賴更少的參數,僅需關聯單個序列的不同位置以計算序列的表示,更容易獲取文本內部依賴關系,使模型能夠更好地學習文本特征。之后,學者提出一系列RNN和注意力機制結合方法,對連續語義進行捕獲。也有學者提出結合CNN和自注意力機制提出一種單詞級別的文本分類模型,使用CNN捕捉文檔的局部特征,利用自注意力機制捕捉長距離依賴。以上方法都是在傳統CNN或RNN的基礎上與注意力機制加以融合,但各自忽略了RNN未能很好地捕獲局部關鍵信息和CNN不能很好的捕獲文檔上下文長距離依賴的缺陷。故想到在融合CNN與RNN各自的優勢特征后再利用自注意力機制構造一種新型的模型。
發明內容
發明目的:針對循環神經網絡(RNN)在處理文本分類任務中對長序列文本建模的壓力過大且可能忽略局部重要特征以及卷積神經網絡(CNN)不能捕獲遠距離上下文依賴關系的問題,本發明提出一種基于深度學習的文本分類方法,得到一種新型網絡結構D-BGRU,在D-BGRU的基礎上融合注意力機制得到D-BGRU-SA模型。該模型減少了對整個長序列文本建模的壓力同時結合了RNN擅于捕獲長距離依賴和CNN能夠提取具有位置不變性的局部關鍵特征的優點,兼顧了上下文對預測結果的影響,并通過自注意力機制進一步學習文本關鍵特征的權重分配,進一步優化文本表示,最后通過多分類器輸出文本類別的預測結果。
技術方案:為實現上述目的,本發明采用的技術方案為:
一種基于深度學習的文本分類方法,包括以下步驟:
步驟1,用Bert預訓練模型將文本處理成向量形式。
步驟2,構建D-BGRU模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011153557.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有自清潔功能的垃圾分類箱
- 下一篇:一種CT輻射防護裝置





