[發明專利]一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法有效
| 申請號: | 202110656931.7 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113190681B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 張志慶;馮時;張一飛;王大玲 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/2411;G06F18/22;G06N3/0464;G06N3/08 |
| 代理公司: | 北京佰智蔚然知識產權代理有限公司 37285 | 代理人: | 王硯雷 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膠囊 網絡 記憶 注意力 細粒度 文本 分類 方法 | ||
本發明提供一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,本方法是根據用戶對事物或事物的某一方面發表的主觀性評論文本以及該事物或該事物某一方面的關鍵詞或關鍵短語,對該主觀性文本在這個事物或這個事物的某一方面上的情感傾向進行分類的一種方法。本發明所提出一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,能夠達到提升模型建模復雜文本能力和提高模型對不同復雜度任務的適應能力的目的。
技術領域
本發明屬于人工智能自然語言處理領域,具體涉及一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法。
背景技術
自然語言處理中的文本分類是指將文本根據其表達的內容歸為事先定義好的一個或幾個類別的任務,是一種序列到類別的任務,具體應用有垃圾評論識別、黃反識別、標簽提取、文章分類和情感分析等等。根據分類的對象可以分為對主題分類和對情感分類。對主題分類是分析文本討論的客觀內容,將文本歸類為不同的主題,而對情感分類則是對帶有主觀情感傾向的文本進行分析,將其對文本中所涉及事物的情感分類為正向、負向或中立。根據處理文本粒度的不同,按粒度從大到小,又可以分為文檔級、句子級、短語級、詞級以及方面級文本分類,分別是對一整個文檔、一個完整的句子、一個句法短語、一個句法詞或者文本中涉及到的事物的某一方面進行分類。對主題分類的粒度級別大多為文檔級和句子級,粒度較大,而對情感分類的粒度則包含了所有的粒度級別,其中詞級和方面級的文本分類由于其粒度級別較小,稱為細粒度文本分類。
目前主流的細粒度文本分類神經網絡模型分為五種:基于序列建模的文本分類,基于卷積神經網絡的文本分類,基于注意力機制的文本分類以及基于膠囊網絡的文本分類。
細粒度的文本分類不同于文檔級和句子級這種粗粒度的文本分類,粗粒度的文本分類需要將文本分類為整個文本表達的最主要的主題傾向和情感傾向,而細粒度的文本分類則需要對一個詞或者文本所涉及到的實體的某一方面進行分類,由于細粒度文本分類大多為對情感進行分類,所以細粒度文本分類任務大多為情感分析任務。由于分類目標的粒度較小,當序列長度較長時,相關上下文占文本總量的比重較小,增加了從整個文本中找出與情感目標相關的上下文的難度;細粒度文本分類的難點在于,一段文本可能包含多個情感目標,或者,一段文本包含對應多個情感目標的不同的觀點詞,這種局部文本上情感目標與觀點詞的交叉重疊現象才是細粒度文本分類或者細粒度情感分析的難點。對于這種復雜的局部文本的建模,基于卷積神經網絡的文本分類方法和基于膠囊網絡的文本分類方法由于其對局部特征良好的建模能力,被廣泛應用在細粒度文本分類任務中。
但是,現有的基于膠囊網絡的文本分類方法與基于卷積神經網絡的文本分類方法并沒有本質上的區別,在對文本特征進行處理的過程中,沒有利用到不同抽象層次的文本特征,然而,由于現有的基于膠囊網絡的文本分類方法在情感目標詞與上下文交互方式上的技術限制,無法對文本特征進行不同層次的抽象,使得模型缺乏對復雜文本的建模能力,以及針對不同語料庫和不同任務的模型泛化問題。
發明內容
針對現有技術的不足,本發明提出一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,以達到提升模型建模復雜文本能力和提高模型對不同復雜度任務的適應能力的目的。為實現上述目的,本發明的技術方案如下:
一種基于膠囊網絡遮罩記憶注意力的細粒度文本分類方法,包括如下步驟:
步驟1、從文本分類任務的數據集中獲取一個樣本,包含需要進行分類的上下文文本C、由一個或多個詞語組成的情感目標短語A以及對應的情感類別;
步驟2、對獲取的上下文文本C和情感目標短語A做填充處理,使所有樣本中的上下文文本長度一致,情感目標短語長度一致;
步驟3、使用預訓練詞向量初始化詞向量表,查詢詞向量表,將上下文文本C和情感目標短語A由詞序列轉化為詞向量序列,得到上下文文本和情感目標短語的分布式表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110656931.7/2.html,轉載請聲明來源鉆瓜專利網。





