[發明專利]文本分類模型訓練方法、文本分類方法、設備和介質有效
| 申請號: | 202110332411.0 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113139051B | 公開(公告)日: | 2023-02-10 |
| 發明(設計)人: | 王連喜;林楠鎧;林曉鈿;蔣越 | 申請(專利權)人: | 廣東外語外貿大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/24;G06F18/214 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510006 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 模型 訓練 方法 設備 介質 | ||
1.一種文本分類模型訓練方法,其特征在于,包括以下步驟:
獲取第一訓練數據,所述第一訓練數據包括帶標簽的文本數據;
采用所述第一訓練數據對第一文本分類模型進行訓練,得到第二文本分類模型;
其中,所述第一文本分類模型和所述第二文本分類模型均包括標簽生成模塊、文本標簽匹配模塊和文本表示模塊,文本表示模塊采用基于雙向器表征的語言表示模型BERT,通過BERT獲取文本數據的句子表示;
獲取第二訓練數據,所述第二訓練數據包括不帶標簽的文本數據;
采用所述第二文本分類模型預測所述第二訓練數據的若干個標簽;
確定若干個所述標簽的第一標簽概率和第二標簽概率,其中,若干個所述標簽的標簽概率之和為1,所述第一標簽概率和所述第二標簽概率對應兩個標簽概率最大的標簽,所述第二標簽概率小于所述第一標簽概率且大于剩余標簽概率,所述剩余標簽概率為若干個所述標簽中不包括第一標簽和第二標簽的標簽概率;
當所述第一標簽概率和所述第二標簽概率不近似相等時,獲取第一分類閾值和第二分類閾值,所述第一分類閾值大于所述第二分類閾值;當所述第一標簽概率大于所述第一分類閾值,則將所述第一標簽概率對應的標簽作為所述第二訓練數據的偽標簽;當所述第一標簽概率小于等于所述第一分類閾值,則執行以下步驟:當所述第一標簽概率大于所述第二分類閾值且所述第一標簽概率與所述第二標簽概率之和大于所述第一分類閾值,則將所述第一標簽概率對應的標簽和所述第二標簽概率對應的標簽作為所述第二訓練數據的偽標簽;
當所述第一標簽概率和所述第二標簽概率近似相等時,確定所述第一訓練數據的第一句向量,以及確定第二訓練數據的第二句向量;計算所述第二句向量與所述第一句向量的第一相似度;當所述第一相似度中最大的相似度大于第三分類閾值,將所述最大的相似度對應第一句向量的第一訓練數據的標簽作為所述第二訓練數據的偽標簽;
采用帶有偽標簽的第二訓練數據和所述第一訓練數據對所述第二文本分類模型進行訓練,得到目標文本分類模型。
2.根據權利要求1所述的一種文本分類模型訓練方法,其特征在于,在所述將若干個所述標簽中滿足預設要求的標簽作為所述第二訓練數據的偽標簽這一步驟后,還包括以下步驟:
獲取偽標簽文本預設個數;
當帶有偽標簽的第二訓練數據大于偽標簽文本預設個數,獲取與偽標簽文本預設個數相等數量的帶有偽標簽的第二訓練數據作為偽標簽訓練數據。
3.根據權利要求1所述的一種文本分類模型訓練方法,其特征在于,在執行所述采用帶有偽標簽的第二訓練數據和所述第一訓練數據對所述第二文本分類模型進行訓練時,還包括以下步驟:
獲取標簽類別權重和平衡系數;
根據所述標簽類別權重和所述平衡系數計算訓練過程的損失權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東外語外貿大學,未經廣東外語外貿大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110332411.0/1.html,轉載請聲明來源鉆瓜專利網。





