[發明專利]一種分類模型訓練方法、裝置和系統在審
| 申請號: | 202010430059.X | 申請日: | 2020-05-20 |
| 公開(公告)號: | CN113780314A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 王雄文;李楠 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q40/00 |
| 代理公司: | 北京思格頌知識產權代理有限公司 11635 | 代理人: | 王申 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分類 模型 訓練 方法 裝置 系統 | ||
本發明公開了一種分類模型訓練方法、裝置和系統。所述方法包括:從樣本數據中選取有標簽的樣本作為訓練數據訓練至少一個分類模型;根據訓練后的當前分類模型,確定樣本數據中未被選為訓練數據的樣本的標簽及該標簽的可信度,將可信度滿足預設條件的標簽添加至對應樣本中,得到有標簽的樣本,并添加至當前訓練數據中,使用添加后的當前訓練數據訓練當前至少一個分類模型;判斷不滿足終止訓練條件時,重復從樣本數據中未被選為訓練數據的樣本中刪選樣本加入訓練數據,對分類模型進行迭代訓練。能夠合理的協同利用有標簽和無標簽的樣本完成分類模型的訓練,充分利用了無標簽樣本的信息,使得訓練的模型的可靠度更高。
技術領域
本發明涉及數據處理技術領域,特別涉及一種分類模型訓練方法、裝置和系統。
背景技術
協同分類是協同利用帶標簽的樣本和不帶標簽的樣本進行模型訓練,使最終的模型可以充分利用樣本數據里的所有信息,以改進分類模型的分類準確性和泛性。而在訓練分類模型的過程中如何協同利用有標簽的樣本和無標簽的樣本仍是一個未被很好解決的問題。
具體的,樣本的標簽即為樣本的所屬類別。
以出口騙稅風險模型為例,隨著經濟形勢日益復雜化,出口騙稅的新型手法也層出不窮,從最普遍的借貨出口,買票騙稅,到高報價格,多報數量,以次充好,再到循環出口或出口傾倒等等,各類手法交叉重疊,也更為隱蔽、更具欺騙性。出口騙稅行為使得一些企業在不了解風險的情況下蒙受損失,甚至帶來災難性后果。故用于判斷獲取到的出口行為數據是否有騙稅風險的出口騙稅風險模型的有效建立變得尤為重要。
而在建立出口騙稅風險模型時,能獲取到的有標簽的樣本(即標注了是否有騙稅風險的樣本)往往較少,有標簽的樣本中的有騙稅風險的樣本就更少了,經常是獲取到的有標簽的樣本中有騙稅風險的樣本和無騙稅風險的樣本比例約為1:1000,故無法保證模型訓練的質量。所以需要協同所有帶標簽、不帶標簽的樣本一起完成出口騙稅風險模型的訓練。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種分類模型訓練方法、裝置和系統。
第一方面,本發明實施例提供一種分類模型訓練方法,包括:
從樣本數據中選取有標簽的樣本作為訓練數據,使用所述訓練數據訓練至少一個分類模型;
根據訓練后的當前分類模型,確定樣本數據中未被選為訓練數據的樣本的標簽及該標簽的可信度,將所述可信度滿足預設條件的標簽添加至對應樣本中,得到有標簽的樣本,并添加至當前訓練數據中,使用添加后的當前訓練數據訓練當前至少一個分類模型;
判斷不滿足終止訓練條件時,重復執行所述根據訓練后的當前分類模型,確定所述樣本數據中未被選為訓練數據的樣本的標簽及該標簽的可信度。
在一些可選的實施例中,所述使用所述訓練數據訓練至少一個分類模型,具體包括:
分類模型只有一個時,利用指定的訓練方法,使用所述訓練數據訓練所述分類模型,或,從多種訓練方法中選擇一種訓練方法,利用選擇的訓練方法,使用所述訓練數據訓練所述分類模型;對應的,所述使用添加后的當前訓練數據訓練當前至少一個分類模型,具體包括:
利用所述指定的訓練方法,使用添加后的當前訓練數據訓練當前分類模型,或,從所述多種訓練方法中選擇一種訓練方法,利用選擇的訓練方法,使用添加后的當前訓練數據訓練當前分類模型。
在一些可選的實施例中,所述使用所述訓練數據訓練所述分類模型,具體包括:
由從所述訓練數據中選取的樣本的標簽值和設定個數的特征值,構成新數據,使用所述新數據訓練所述分類模型;對應的,所述使用添加后的當前訓練數據訓練當前分類模型,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010430059.X/2.html,轉載請聲明來源鉆瓜專利網。





