[發明專利]一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法有效
| 申請號: | 202110656931.7 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113190681B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 張志慶;馮時;張一飛;王大玲 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/2411;G06F18/22;G06N3/0464;G06N3/08 |
| 代理公司: | 北京佰智蔚然知識產權代理有限公司 37285 | 代理人: | 王硯雷 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膠囊 網絡 記憶 注意力 細粒度 文本 分類 方法 | ||
1.一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,其特征在于,包括如下步驟:
步驟1、從文本分類任務的數據集中獲取一個樣本,樣本包含需要進行分類的上下文文本C、由一個或多個詞語組成的情感目標短語A以及對應的情感類別;
步驟2、對獲取的上下文文本C和情感目標短語A做填充處理,使所有樣本中的上下文文本長度一致,情感目標短語長度一致;
步驟3、使用預訓練詞向量初始化詞向量表,通過查詢詞向量表,將上下文文本C和情感目標短語A由詞序列轉化為詞向量序列,得到上下文文本和情感目標短語的分布式表示;
步驟4、對上下文文本和情感目標短語的詞向量序列分別使用不同的雙向LSTM網絡進行處理,得到在當前樣本上特化的上下文隱向量序列和情感目標隱向量序列;
步驟5、將上下文隱向量序列和情感目標隱向量序列合并,對合并后的序列使用二維卷積操作提取局部特征,得到源膠囊序列;
步驟6、在源膠囊序列對應步驟2中的填充位置上重復之前的源膠囊;
步驟7、以步驟6得到的膠囊序列中包含的姿態矩陣序列為query向量序列,以源膠囊序列中包含的姿態矩陣序列為key向量序列和value向量序列,計算帶有遮罩的注意力,對步驟6得到的膠囊序列中包含的姿態矩陣序列進行優化,獲取帶有全局上下文信息的姿態矩陣序列;
步驟8、將步驟7中得到的帶有全局上下文信息的姿態矩陣序列與步驟7中作為query向量序列輸入的姿態矩陣序列相加,獲得同時包含局部和全局語義信息的加和姿態矩陣序列;
步驟9、對加和姿態矩陣序列進行層規范化(Layer?Normalization)操作,在保留數值特征的前提下使梯度能夠穩定的反向傳播;
步驟10、對膠囊序列進行膠囊卷積操作,其中,膠囊序列的姿態矩陣序列為規范化后的加和姿態矩陣序列,膠囊序列的激活值序列為步驟7中與query向量序列相對應的激活值序列;
步驟11、重復步驟7-10,以步驟10中得到的膠囊序列作為步驟7中輸入的query向量序列,重復N次,得到經多次膠囊卷積抽象之后的N階抽象膠囊序列;
步驟12、對N階抽象膠囊序列進行全連接路由操作,獲取類膠囊;
步驟13、找出所有類膠囊中最大的激活值,將對應的類作為該文本的分類結果。
2.如權利要求1所述的基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,其特征在于,由步驟1-13組成的模型在訓練時所使用的目標損失函數為:
其中,t表示目標類別的序號,at表示對應目標類別的膠囊激活值,k表示非目標類別的序號,ak表示對應非目標類別的膠囊激活值,m表示目標類別膠囊激活值at與非目標類別膠囊激活值ak之間的間隔,max()表示對括號中以逗號分割的兩項取最大值,該目標損失函數用來最大化目標類別膠囊激活值與非目標類別膠囊激活值之間的間隔。
3.如權利要求1所述的基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,其特征在于,步驟5所述的二維卷積操作為TextCNN操作,即對序列進行n-gram卷積,卷積核長度為n,寬度與隱向量的維度保持一致,不對隱向量進行分割。
4.如權利要求3所述的基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,其特征在于,步驟5的膠囊矩陣中的每一個膠囊由一個姿態矩陣和一個激活值組成,姿態矩陣為一個4*4的矩陣,激活值是一個標量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110656931.7/1.html,轉載請聲明來源鉆瓜專利網。





