[發明專利]一種基于注意力機制的文本分類方法有效
| 申請號: | 202110360121.7 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113204640B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 于舒娟;蔡夢夢;吳夢潔;毛新濤;黃橙;徐欽晨;張昀;王秀梅 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06N3/047;G06N3/048;G06N3/0464;G06N3/08 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 210044 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 文本 分類 方法 | ||
1.一種基于注意力機制的文本分類方法,其特征在于,包含步驟如下:
步驟A,文本的表示,利用word2vec將文本中的單詞轉換成詞向量,降低文本分類的復雜度,設定輸入句子中每個單詞被映射成一個向量xi∈Rn×d(i=0,1,2,…,n),則輸入句子對應的詞向量矩陣為[x1,x2,…,xn],n為句子的最大長度,d為詞向量的維數;
步驟B,構建文本分類器,對輸入的文本進行類別劃分,文本分類器的構建基于DenseNet的神經網絡,由卷積層、基于注意力機制的密集塊、轉換層、池化層和分類層五個部分組成;
步驟B-1,卷積層的構建包括兩個過程:權重初始化和卷積過程;
步驟B-1-1,權重初始化,將輸入的詞向量構建N-gram模型,設定m為文本中的任一類別,利用樸素貝葉斯法計算類別m中的N-gram的比重r,公式如下:
式中,α是平滑參數,pm表示在類別m中包含N-gram的文本數;
表示在除m類別外其他類別中包含N-gram的文本數;
||pm||1表示文本中的類別m的數量,||.||1表示L1范數;
分別表示文本中除類別m外其他類別的數量;
利用K均值算法對比重r大于1的N-gram進行聚類,將聚類的質心向量初始化卷積層的權重;
步驟B-1-2,卷積過程,利用權重初始化的卷積層相應位置的局部表示ci為:
ci=f(Wc*xi:i+m-1+bc)
式中,xi:i+k-1表示從第i個詞到第i+k-1個詞對應的詞向量;
Wc表示權值矩陣;
bc表示對應的偏置向量;
f表示激活函數relu;
卷積層的輸出C表示為:
C=[c0,c1,…,cT]
式中,[c0,c1,…,cT]為整個句子的局部表示,T表示輸入文本的長度;
步驟B-2,構建基于注意力機制密集塊,進行文本信息特征的深層次提取,注意力密集塊由主干模塊和標記模塊兩部分組成,主干模塊基于密集塊,利用DenseNet神經元前層傳遞方式進行特征傳遞;標記模塊由卷積模塊和激活函數組成;
主干模塊第0層到l-1層的輸出特征圖通道數目分別C0,C1,C2,…,Cl-2,Cl-1,則第l層的輸出Xt為:
Xt=Hl([C0,C1,C2,…,Cl-1])
式中,Xt表示第t個主干模塊的輸出;
[C0,C1,C2,…,Cl-1]表示將0層到l-1層的輸出特征圖做通道的合并;
Hl代表三種操作的組合函數,分別是BN、relu以及卷積操作;
標記模塊,即基于注意力密集模塊,注意力系數Iatt表達式如下:
Iatt=f(Watt*C+b)
式中,Iatt表示當前文本信息的重要程度;
Watt表示注意權重向量;
b表示偏置向量;
f為激活函數sigmoid;
基于注意力密集模塊的輸出為:
Yt=Iatt*Xt+Xt
式中,Yt表示第t個注意力密集塊的輸出;
步驟B-3,構建轉換層,對文本提取的特征進行降維,轉換層由卷積層和最大池化層兩部分組成,卷積層的卷積核大小為1×3,最大池化層的卷積核大小為1×2;
步驟B-4,構建分類層,對提取的文本特征進行歸類,分類層由最大池化層和分類層兩部分組成,最大池化層卷積核大小為1×7,分類層利用softmax分類器計算各個分類的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110360121.7/1.html,轉載請聲明來源鉆瓜專利網。





