[發明專利]一種基于有監督對比學習的細粒度文本分類方法在審
| 申請號: | 202210430095.5 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114757289A | 公開(公告)日: | 2022-07-15 |
| 發明(設計)人: | 徐建;李曉冬;阮國慶;王羽 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/30;G06F40/289 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 黃振華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 對比 學習 細粒度 文本 分類 方法 | ||
1.一種基于有監督對比學習的細粒度文本分類方法,其特征在于,包括以下步驟:
步驟1,構建文本分類模型,并定義層級分類體系,細粒度刻畫類別;
步驟2,選取樣本,并對于每個樣本合理構建正負例,進行數據增廣;
步驟3,基于交叉熵損失和對比損失對文本分類模型進行聯合訓練,實現細粒度文本分類。
2.根據權利要求1所述的一種基于有監督對比學習的細粒度文本分類方法,其特征在于,步驟1包括:
定義層級分類體系,刻畫類別之間的層次化關系,不同層次的標簽之間通過符號-隔開,通過定義該標簽提供文檔級的分類功能。
3.根據權利要求2所述的一種基于有監督對比學習的細粒度文本分類方法,其特征在于,步驟2包括:
從文本數據集中選取一批樣本作為訓練樣本,即定義批處理內的樣本個數為K,該批處理batch內正樣本集合為P,負樣本集合為N,定義該批處理batch內的樣本xi及其標簽yi為集合{xi,yi}i∈I,其中集合I={1,…,K};
步驟2-1,構建訓練數據集;
步驟2-2,正負例構建;
步驟2-3,基于隨機詞替換的數據增廣。
4.根據權利要求3所述的一種基于有監督對比學習的細粒度文本分類方法,其特征在于,步驟2-1包括:
對于選取的樣本,構建訓練語料;所述訓練語料包括文章標題、文章內容和文章的層級分類標簽;
對訓練語料進行預處理;所述預處理包括:將繁體字轉換為簡體字,全角數字和全角字母轉為半角數字和半角字母;
將文章標題與正文采用句號拼接起來,判斷長度是否超過預設的長度閾值;如果沒有超過,將拼接結果作為文章;如果超過預設的長度閾值,對文章進行截斷處理,將截斷后的內容作為文章;
對每個樣本進行上述操作得到訓練數據集。
5.根據權利要求4所述的一種基于有監督對比學習的細粒度文本分類方法,其特征在于,步驟2-2所述正負例構建方法包括:
針對步驟2-1得到的每個訓練數據集中的數據,即每個訓練樣本xi,其正例定義為具有相同類別標簽的樣本及其增廣后的樣本,負例定義為不同類別標簽的樣本及其增廣后的樣本:
P={p:p∈I,yp=yi∧p≠i}
N={p:p∈I,yp≠yi}
其中,I表示所有樣本下標集合,p為集合I中的元素,yp為其對應的標簽,yi表示樣本xi的類別,P表示樣本xi的正樣本集合,N表示其負樣本集合;
步驟2-3所述基于隨機詞替換的數據增廣方法包括:
對步驟2-2中經過正負例構建的訓練數據集中的數據利用jieba分詞器進行分詞,并隨機選擇如下4種替換方式:
替換方式1,同義詞替換:隨機選擇n個單詞,對于選中的每個單詞利用同義詞進行替換;
替換方式2,隨機插入:句子中隨機選擇1個單詞,查找到其同義詞,將該同義詞插入到句子隨機一個位置,該過程重復n次;
替換方式3,隨機替換:句子中隨機選擇兩個單詞,然后相互交換位置,該過程重復n次;
替換方式4,隨機刪除:針對句子中每個單詞依概率p進行刪除,總計刪除的單詞個數記作m;
m=p(del)l
其中,l表示句子長度,p(del)表示每個位置做單詞刪除的概率;
經過替換后得到數據增廣后的訓練數據集。
6.根據權利要求5所述的一種基于有監督對比學習的細粒度文本分類方法,其特征在于,步驟3包括:
步驟3-1,通過bert編碼得到語義向量;
步驟3-2,計算對比損失拉近同類別樣本距離;
步驟3-3,計算文本分類交叉熵損失;
步驟3-4,構建聯合損失函數,對文本分類模型進行聯合訓練,實現細粒度文本分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210430095.5/1.html,轉載請聲明來源鉆瓜專利網。





