[發明專利]一種基于特征增強的非平衡Bi-LSTM的中文文本分類方法有效
| 申請號: | 202011169632.2 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112199503B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 宦海;嚴嘉宇;陳逸飛;李鵬程;朱蓉蓉;劉源 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/0442;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 增強 平衡 bi lstm 中文 文本 分類 方法 | ||
1.一種基于特征增強的非平衡Bi-LSTM的中文文本分類方法,其特征在于,包括以下步驟:
(1)預先獲取若干條中文文本;
(2)使用BERT預訓練模型將獲取的文本矢量化處理;
(3)利用非平衡Bi-LSTM網絡提取文本的深層特征;
(4)利用多層注意力機制從詞、句兩個層級對深層特征信息加以權重;
(5)使用Softmax函數對文本進行分類;
所述步驟(3)的實現過程如下:
在非平衡Bi-LSTM網絡的前后向兩層的每個基礎LSTM單元進行循環,提取語義特征,之后通過權重β整合前后向特征,形成下一層的輸入向量H:
H=β·hforward+(1-β)·hbackward????(8)
其中,hforward為前向輸出信號,hbackward為后向輸出信號,β為前后向權重系數;
所述步驟(4)的實現過程如下:
(41)將網絡層輸入的經過特征提取的文本向量,從單詞一級對每個詞向量各加以權重,突出蘊含能夠顯示文本類別的關鍵詞:
ui,t=tanh(Wwordhi,t+bword)????(7)
其中,ui,t為hi,t的隱層表示,ai,t是經過歸一化的權重系數,Wword和bword是隨機初始化的系數矩陣和偏移量,之后會作為模型的參數參與訓練,si是第i個句子的向量表示;
(42)從句子層級對文本中的每一句話加以權重,突出關鍵句:
ui=tanh(Wsenhi+bsen)???????(10)
其中,ui為hi的隱層表示,ai是經過歸一化的權重系數,Wsen和bben是隨機初始化的系數矩陣和偏移量,之后會作為模型的參數參與訓練,v就是整個文本的向量表示;
(43)形成輸出到最后的分類層。
2.根據權利要求1所述的基于特征增強的非平衡Bi-LSTM的中文文本分類方法,其特征在于,所述步驟(2)的實現過程如下:
(21)對輸入文本進行編碼將之矢量化,實際的輸入值包含三個部分:詞向量、句向量、位置向量;
(22)利用BERT預訓練模型作為語言特征提取和表示方法,BERT模型采用層次架構的Transformer語言模型;BERT的預訓練過程采用無監督方式,通過特殊的隨機遮掩詞和下一句預測機制實現對中文語料語義的理解;
(23)根據上下文對語義的理解對遮掩詞進行預測,通過隨機遮掩詞與下一句預測的聯合訓練,以下一句預測的結果為方向引導,作為對隨機遮掩詞預測的修正,在削弱噪聲影響的同時增強對文本語義的學習。
3.如權利要求1所述的基于特征增強的非平衡Bi-LSTM的中文文本分類方法,其特征在于,所述步驟(5)采用全連接層輸出每條網絡文本在不同類別標簽上的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011169632.2/1.html,轉載請聲明來源鉆瓜專利網。





