[發明專利]一種基于Attention機制的多通道的文本分類方法有效
| 申請號: | 201911191475.2 | 申請日: | 2019-11-28 |
| 公開(公告)號: | CN111061873B | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 劉磊;侯良文;孫應紅;李靜 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/242;G06F40/289 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 attention 機制 通道 文本 分類 方法 | ||
1.一種基于Attention機制的多通道的文本分類方法,包括以下步驟:
步驟1文本預處理
1.1文本分詞,構建預處理后語料庫;
1.2構建詞庫,所述的詞庫由去除停用詞后且詞頻大于閾值θ的詞構成,同時在詞庫中插入字符串“UNK”和“PAD”,其中“UNK”表示不能識別的詞,“PAD”表示為模型輸入中固定句子長度需要填充的詞;
步驟2詞向量構建
利用word2vec技術,對預處理后的語料進行詞向量的訓練,詞向量的維度設置為d,得到預訓練詞向量表,對詞庫中的每一個詞,若該詞在預訓練詞向量表存在,則使用表中詞向量作為該詞的詞向量,若該詞在預訓練詞向量表中不存在,則使用正態分布隨機初始化向量作為該詞的詞向量;
步驟3模型構建
3.1詞向量的初始化
首先對于預處理后語料庫中每個句子,用詞向量替換句子中的每個詞,構建句子的詞向量表示;
然后利用預訓練詞向量創建的句子詞向量嵌入矩陣A∈Rl×d,構建第1通道,表示如下:
A=[x1,x2,…,xi,…,xl]T 1≤i≤l
其中xi對應句子中第i個詞的d維向量,l為句子的固定長度;
利用均勻分布隨機初始化的詞向量創建的句子詞向量嵌入矩陣B∈Rl×d,構建第2通道,表示如下:
B=[y1,y2,…,yi,…,yl]T 1≤i≤l
其中yi對應句子中第i個詞的d維向量,l為句子的固定長度;
將詞向量嵌入矩陣A和B在深度方向上進行拼接,得到句子的雙通道詞向量嵌入矩陣C∈R2×l×d表示如下:
其中,表示兩個相同維度的二維矩陣在深度方向上的拼接符號;
3.2引入Attention層
首先在第1和第2通道上引入Attention機制,將通道上的當前詞向量重新編碼,通道1的詞向量xi, 1≤i≤l的上下文向量ui表示如下:
其中αij為詞向量xi對應的權重值,l為句子固定長度,αij>0且權重值αij按照如下公式計算:
其中l為句子固定長度,score(xi,xj)是詞向量xi和xj, i≠j的相似性得分,表示如下:
然后將詞向量和其對應的上下文向量拼接為擴展詞向量,更新到嵌入矩陣中,其中,詞向量xi的擴展詞向量Xi表示如下:
其中1≤i≤l,l為句子固定長度,表示向量之間的串聯拼接符號;
基于同樣方法,計算得到通道2的詞向量yi1≤i≤l的上下文向量vi,yi的擴展詞向量Yi;
3.3文本特征抽取和類別輸出
雙通道詞嵌入矩陣C∈R2×l×d經過Attention機制對詞向量的重新編碼后,更新后的嵌入矩陣變為D∈R2×l×2d,表示如下:
其中,∪表示向量并行拼接符號,l為句子固定長度,表示兩個通道上的擴展詞向量Xk和Yk在空間維度上的合并;
然后使用窗口大小為h,深度為2的多個卷積核在雙通道嵌入矩陣上進行滑動卷積操作,得到卷積核提取的特征圖,再對特征圖進行最大池化操作,將池化得到的主要特征展開成特征向量ξ,以ξ作為全連接層的輸入,經過全連接層和Softmax層得到文本所屬類別的概率分布。
2.根據權利要求1所述的一種基于Attention機制的多通道的文本分類方法,其特征在于:
所述步驟3.1中構建句子的詞向量表示具體為:以詞的數目表示句子長度,設置句子固定長度為l,對于大于句長l的句子截斷,小于句長l的句子用“PAD”填充。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911191475.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車鑄造件砂錠成型模具
- 下一篇:用于直流套管密封圈模擬測試的裝置及方法





