[發明專利]一種基于局部與全局互注意力機制的文本分類方法有效
| 申請號: | 201910091937.7 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109902293B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 馬千里;余柳紅;陳子鵬;田帥 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/33;G06F16/35;G06N3/04 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 局部 全局 注意力 機制 文本 分類 方法 | ||
1.一種基于局部與全局互注意力機制的文本分類方法,其特征在于,所述的文本分類方法包括以下步驟:
S1、獲取文本數據集,對數據進行預處理,把文本序列的每個單詞映射為詞向量;
S2、使用雙向長短期記憶網絡來捕獲文本序列的全局長期依賴,同時,使用多尺度卷積神經網絡提取文本序列的局部語義特征;其中,所述的步驟S2中并行提取文本序列的全局長期依賴和局部語義特征,過程如下:
S2.1、使用雙向長短期記憶網絡提取全局長期依賴,在時間步t,單個方向的隱藏層狀態ht更新如下:
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct)
其中,ht-1是時間步t-1的單個方向長短期記憶網絡隱藏層狀態,kglo為單向長短期記憶網絡的隱藏層狀態維度,xt是時間步t的輸入,it、ft、ot分別是單向長短期記憶網絡的輸入門、遺忘門和輸出門;gt是細胞臨時狀態,ct是細胞狀態,σ、tanh是非線性激活函數,⊙是逐元素的乘法,M是由可訓練參數組成的仿射變換函數;
將文本序列以正向輸入到長短期記憶網絡中,并獲得前向隱藏層狀態
將文本序列以反方向輸入長短期記憶網絡,更新后向隱藏層狀態隱藏層狀態的兩個方向連接如下:
其中,t=1,2,...,T,T是輸入時間步的長度,是拼接操作,表示時間步t的全局長期依賴;
拼接每個時間步的隱藏層狀態向量形成矩陣,其定義如下:
其中,是文本序列的全局長期依賴矩陣,T是輸入時間步的長度,kglo為單向長短期記憶網絡的隱藏層狀態維度,H的每列表示文本序列對應位置處的全局長期依賴;
S2.2、使用多尺度卷積神經網絡提取局部語義特征,令為卷積運算的卷積核,其中,w為卷積核的寬度,d是卷積核的高度,其值等于輸入維度,kloc是卷積核的數量,對于位置i的單詞,卷積操作表示為:
其中,b表示偏置項,xi-w/2+1:i+w/2指詞向量表示xi-w/2+1,...,xi,...,xi+w/2的拼接,*是卷積運算,f是非線性變換函數,是文本序列位置i處的kloc維局部w元特征向量,卷積核應用于文本序列的每個位置,使用零填充以生成與輸入相同長度的特征映射:
其中,是文本序列每個位置的局部語義特征矩陣,是使用相同大小的窗口進行卷積得到的局部語義特征矩陣;接下來使用多尺度卷積神經網絡,使用不同大小的窗口進行卷積操作,假設r是窗口w的數量,得到r個卷積操作的結果,拼接起來得到局部語義特征矩陣
S3、構建一種局部與全局互注意力機制,使用步驟S2中提取的全局長期依賴和每個位置的局部語義特征作為輸入,用局部語義特征關注全局長期依賴產生局部指導的全局注意力權重,進行加權得到加權全局特征,用全局長期依賴關注局部語義特征產生全局指導的局部注意力權重,進行加權得到加權局部特征;其中,所述的步驟S3中構建局部與全局互注意力機制的過程如下:
S3.1、采用局部與全局互注意力機制,將步驟S2中提取的全局長期依賴H和局部語義特征C作為輸入,線性映射到較低維度k中,映射m次,m是局部與全局互注意力機制的子空間數目,將H和C映射到不同的子空間i:
其中,是投影參數矩陣,i=1,2,...,m;
S3.2、使用局部語義特征指導全局長期依賴,根據局部語義特征的每個位置計算全局長期依賴的全局注意力上下文,公式如下:
其中,i=1,2,...,m,是第i個子空間的全局注意力上下文,Ai∈RT×T是全局注意力權重,接著拼接每一個子空間的全局注意力上下文,得到加權全局特征
使用全局長期依賴指導局部語義特征,根據全局長期依賴的每個位置計算局部語義特征的局部注意力上下文,公式如下:
其中,i=1,2,...,m,是第i個子空間的局部注意力上下文,Bi∈RT×T是局部注意力權重,接著拼接每一個子空間的局部注意力上下文,得到加權局部特征
S4、使用上述的加權全局特征和加權局部特征,隨時間步加權池化,產生最終的全局表示向量和局部表示向量;其中,所述的步驟S4中隨時間步加權池化的過程如下:
將步驟S3中得到的加權全局特征和加權局部特征作為輸入,加權全局特征的隨時間步加權過程如下:
其中,W(1)∈Rmk×mk,w(2)∈Rmk是權重矩陣,B(1)∈RT×mk,b(2)∈RT是偏置,α∈RT,是加權全局特征的第i個向量的得分,zH∈Rmk是最終的全局表示向量;
加權局部特征的隨時間步加權過程如下:
其中,W(3)∈Rmk×mk,w(4)∈Rmk是權重矩陣,B(3)∈RT×mk,b(4)∈RT是偏置,β∈RT,是加權局部特征的第i個向量的得分,zC∈Rmk是最終的全局表示向量;
S5、拼接上述的全局表示向量和局部表示向量,輸入全連接層,再輸入softmax層進行分類。
2.根據權利要求1所述的一種基于局部與全局互注意力機制的文本分類方法,其特征在于,所述的步驟S5過程如下:
將步驟S4得到的最終全局表示向量zH和最終局部表示向量zC作為輸入,預測每個類別i的概率預測公式如下:
其中,Wfc和Wsm是全連接層和softmax層的權重矩陣,bfc和bsm是偏置項;
以減少交叉熵損失作為訓練目標進行訓練,其中,交叉熵損失的表達式如下:
其中,y是真實分布,是預測輸出分布,是兩個分布的交叉熵函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910091937.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中文詞向量處理方法及其系統
- 下一篇:一種外語單詞語音例句庫自建方法





