[發明專利]基于多元組的文本分類、文本分類模型訓練的方法及裝置有效
| 申請號: | 202210971777.7 | 申請日: | 2022-08-15 |
| 公開(公告)號: | CN115048525B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 陳瑩瑩;鐘藝豪 | 申請(專利權)人: | 有米科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 江銀會 |
| 地址: | 510006 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多元 文本 分類 模型 訓練 方法 裝置 | ||
1.一種基于多元組的文本分類方法,其特征在于,所述方法包括:
將待識別類別的目標文本輸入預先訓練出的多元組文本分類網絡中進行類別分析,并獲取所述多元組文本分類網絡輸出的分析結果,所述分析結果包括所述目標文本的文本特征;
確定所述目標文本所屬行業對象的目標層級下多個類別中每個所述類別的平均文本特征,并分析所述目標文本的文本特征與所述目標層級下每個所述類別的平均文本特征之間的匹配度;
根據所述目標層級下每個所述類別對應的匹配度,從所述目標層級所有所述類別中,篩選最大匹配度的所述類別,作為所述目標文本的類別;
所述方法還包括:
確定所述行業對象對應的樣本文本集合,所述行業對象存在多個層級,每個所述層級均存在對應的類別且從級別最低所述層級開始上一層級對應的類別范圍大于下一層級對應的類型范圍,所述樣本文本集合包含不同所述層級的類別對應的樣本文本;
根據所述樣本文本集合中的樣本文本以及預設正系數,確定所述行業對象在不同所述層級的損失;
基于所述行業對象在所有所述層級下的損失,訓練預先確定出的文本分類網絡,直至所述文本分類網絡收斂,得到多元組文本分類網絡,并確定收斂后的所述多元組文本分類網絡,作為預先訓練出的多元組文本分類網絡;
其中,所述根據所述樣本文本集合中的樣本文本以及預設正系數,確定所述行業對象在不同所述層級的損失,包括:
從所述行業對象中級別最低的層級開始,在所述樣本文本集合中,選擇級別最低的所述層級的第一樣本文本作為錨樣本文本、與所述第一樣本文本同層級且類別相同的第二樣本文本作為正樣本文本及與所述第一樣本文本同層級且類別不同的第三樣本文本作為負樣本文本;
基于所述錨樣本文本、所述正樣本文本、所述負樣本文本以及預設正系數,計算所述行業對象在當前層級下的損失;
將已經參與計算損失的前一層級的所述負樣本文本更新為當前層級的所述正樣本文本,并在所述樣本文本集合中,確定與所述錨樣本文本同屬當前層級且不同屬前一層級的樣本文本作為所述負樣本文本;
將與當前層級匹配的預設正系數更新為已經參與計算損失的前一層級的所述預設正系數,并重復執行所述的基于所述錨樣本文本、所述正樣本文本、所述負樣本文本以及所述預設正系數,計算所述行業對象在當前層級下的損失的操作,直至計算完畢所述行業對象在最后一個層級下的損失。
2.根據權利要求1所述的基于多元組的文本分類方法,其特征在于,所述基于所述錨樣本文本、所述正樣本文本、所述負樣本文本以及預設正系數,計算所述行業對象在當前層級下的損失,包括:
計算所述正樣本文本與所述錨樣本文本之間的距離以及所述負樣本文本與所述錨樣本文本之間的距離,并根據所述正樣本文本對應的距離、所述負樣本文本對應的距離以及預設正系數,計算所述行業對象在當前層級下的損失;
其中,所述行業對象在第i層級下的損失的計算公式如下:
式中,lossi表示所述行業對象在第i個層級下的損失,ci、ci+1均為所述預設正系數,且ci+1>ci;xa1表示所述錨樣本文本,xpi表示第i個所述正樣本文本,xni表示第i個所述負樣本文本,d(xpi,xa1)表示所述正樣本文本與所述錨樣本文本之間的距離,d(xni,xa1)表示所述負樣本文本與所述錨樣本文本之間的距離。
3.根據權利要求2所述的基于多元組的文本分類方法,其特征在于,所述基于所述行業對象在所有所述層級下的損失,訓練預先確定出的文本分類網絡,直至所述文本分類網絡收斂,得到多元組文本分類網絡,包括:
計算所述行業對象的所有所述層級的損失之和,作為所述行業對象的層級總損失;
基于所述層級總損失訓練預先確定出的文本分類網絡,直至所述文本分類網絡收斂,得到多元組文本分類網絡;
其中,所述行業對象的層級總損失的計算公式如下:
式中,所述loss為所述行業對象的層級總損失,所述N為所述行業對象的所有層級的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于有米科技股份有限公司,未經有米科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210971777.7/1.html,轉載請聲明來源鉆瓜專利網。





