[發明專利]一種基于有監督對比學習的細粒度文本分類方法在審
| 申請號: | 202210430095.5 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114757289A | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 徐建;李曉冬;阮國慶;王羽 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/30;G06F40/289 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 黃振華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 對比 學習 細粒度 文本 分類 方法 | ||
本發明公開了一種基于有監督對比學習的細粒度文本分類方法,包括:步驟1,構建文本分類模型,并定義層級分類體系,細粒度刻畫類別;步驟2,選取樣本,并對于每個樣本合理構建正負例,進行數據增廣;步驟3,基于交叉熵損失和對比損失對文本分類模型進行聯合訓練,實現細粒度文本分類。針對細粒度文本分類的實際需求,定義層級分類體系;為了區分細粒度文本分類,引入基于對比學習的損失函數;為了構建樣本的正例,提出了一種基于隨機替換的數據增廣方式;提出一種基于對比損失和交叉熵損失相結合的細粒度文本分類方法,引入了對比學習的思想解決細粒度文本分類問題,保證同類別樣本較近的語義距離。
技術領域
本發明涉及一種文本分類方法,特別是一種基于有監督對比學習的細粒度文本分類方法。
背景技術
細粒度文本分類需要區分出具有細微差別的類間關系,比如在細粒度情感分類中不僅需要區分情感類別而且需要區分出情感強度。因此不僅需要區分褒義、貶義這2種類別,而且需要區分出褒義和貶義的程度,因此每個類別又會劃分為情感的一般表達和極度描述,比如針對褒義繼續劃分為一般褒義和極度褒義。
本文所要解決的是因為類別間具有層級關系導致的細粒度文本分類問題,因為類別是分層的樹狀結構,底層的葉子類別往往具有相同的父類別,比如類別“敵對-口頭-拒絕”和類別“敵對-口頭-反對”具有相同的父類別“敵對-口頭”,只有葉子類別不同,因為具有相同的父類別這會導致不同類別的文本之間語義上十分相似,針對該問題不僅要區分樣本所屬類別,而且應該區分出樣本之間語義的不同。
針對普通文本分類問題,現有的解決方法是通過預訓練語言模型bert得到文本的向量表示,然后利用交叉熵損失函數進行微調。但是交叉熵損失函數對于細粒度分類并不合適,因為交叉熵損失的排他性會同等看待每個類別,比如將一個原本一般褒義的樣本錯分極度褒義和極度貶義在損失函數上并沒有不同,但實際上一般褒義的樣本和極度褒義的樣本語義距離更近于極度貶義,而對比學習恰恰是解決這種問題,他能保證針對當前樣本距離正例的距離近于負例。因此我們引入了有監督對比損失進行聯合訓練,針對當前樣本合理的設計正負例,對比損失可以保證當前樣本距離正例的距離近于負例的距離。
發明內容
發明目的:本發明所要解決的技術問題是針對現有技術的不足,提供一種基于有監督對比學習的細粒度文本分類方法。
為了解決上述技術問題,本發明公開了一種基于有監督對比學習的細粒度文本分類方法,包括以下步驟:
步驟1,構建文本分類模型,并定義層級分類體系,細粒度刻畫類別;
步驟2,選取樣本,并對于每個樣本合理構建正負例,進行數據增廣;
步驟3,基于交叉熵損失和對比損失對文本分類模型進行聯合訓練,實現細粒度文本分類。
本發明中,步驟1包括:
定義層級分類體系,刻畫類別之間的層次化關系,不同層次的標簽之間通過符號-隔開,通過定義該標簽希望為政治、軍事、外交等領域的新聞提供文檔級的分類功能。
本發明中,步驟2包括:
從文本數據集中選取一批樣本作為訓練樣本,即定義批處理內的樣本個數為K,該批處理batch內正樣本集合為P,負樣本集合為N,定義該批處理batch內的樣本xi及其標簽yi為集合{xi,yi}i∈I,其中集合I={1,…,K};
步驟2-1,構建訓練數據集;
步驟2-2,正負例構建;
步驟2-3,基于隨機詞替換的數據增廣。
本發明中,步驟2-1包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210430095.5/2.html,轉載請聲明來源鉆瓜專利網。





