[發明專利]多分類方法及裝置、電子設備和存儲介質在審
| 申請號: | 201910134159.5 | 申請日: | 2019-02-22 |
| 公開(公告)號: | CN110008990A | 公開(公告)日: | 2019-07-12 |
| 發明(設計)人: | 郁延書 | 申請(專利權)人: | 上海拉扎斯信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q30/06;G06Q50/12 |
| 代理公司: | 上海晨皓知識產權代理事務所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 200333 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類模型 訓練集 存儲介質 電子設備 訓練樣本 機器學習技術 整體訓練 重復執行 分類 | ||
1.一種多分類方法,其特征在于,包括:
生成初始訓練集,基于所述初始訓練集訓練得到第一分類模型;
將所述第一分類模型對應的訓練樣本從訓練集中分離得到第二分類模型的訓練集;
基于所述第二分類模型的訓練集訓練得到第二分類模型;
重復執行上述分離訓練樣本并訓練獲得分類模型,以獲得多個分類模型。
2.根據權利要求1所述的多分類方法,其特征在于,在所述生成初始訓練集之后,且在開始訓練得到所述多個分類模型之前,還包括:
計算得到所述初始訓練集中不同類別訓練樣本之間的距離,根據所述距離確定所述多個分類模型的訓練順序;
在訓練得到所述多個分類模型的步驟中,按照所述多個分類模型的訓練順序訓練得到所述多個分類模型。
3.根據權利要求2所述的多分類方法,其特征在于,所述距離為歐式距離,所述根據所述距離確定所述多個分類模型的訓練順序,具體包括:
計算得到所述初始訓練集中每個類別的樣本中心與其他類別的樣本中心之間的歐氏距離的最小值;
以每個類別對應的歐氏距離的最小值從大到小的順序作為所述多個分類模型的訓練順序。
4.根據權利要求1至3中任一項所述的多分類方法,其特征在于,所述生成初始訓練集,具體包括:
獲取原始訓練集;
基于所述原始訓練集構建得到所述初始訓練集。
5.根據權利要求4所述的多分類方法,其特征在于,所述多分類方法用于商戶主要經營范圍的分類。
6.根據權利要求5所述的多分類方法,其特征在于,所述獲取原始訓練集,具體包括:
采集人工標注有主要經營范圍類別的商戶信息;
將同一品牌下標注的主要經營范圍類別對應的商戶數最多且大于1的主要經營范圍作為所述品牌下的所有商戶的主要經營范圍。
7.根據權利要求6所述的多分類方法,其特征在于,所述基于所述原始訓練集構建得到所述初始訓練集,具體包括:
對所述原始訓練集進行樣本過采樣或樣本欠采樣以得到平衡訓練集;
基于所述平衡訓練集得到所述初始訓練集。
8.一種多分類裝置,其特征在于,包括:
生成模塊,用于生成初始訓練集;
第一訓練模塊,用于基于所述初始訓練集訓練得到第一分類模型;
第二訓練模塊,用于將所述第一分類模型對應的訓練樣本從訓練集中分離得到第二分類模型的訓練集,并基于所述第二分類模型的訓練集訓練得到第二分類模型;
控制模塊,用于重復調用所述第二訓練模塊執行分離訓練樣本并訓練獲得分類模型,以獲得多個分類模型。
9.一種電子設備,其特征在于,包括:存儲器和處理器,存儲器存儲計算機程序,處理器運行所述計算機程序以實現:
生成初始訓練集,基于所述初始訓練集訓練得到第一分類模型;
將所述第一分類模型對應的訓練樣本從訓練集中分離得到第二分類模型的訓練集;
基于所述第二分類模型的訓練集訓練得到第二分類模型;
重復執行上述分離訓練樣本并訓練獲得分類模型,以獲得多個分類模型。
10.一種存儲介質,其特征在于,用于存儲計算機可讀程序,所述計算機可讀程序用于供計算機執行如權利要求1至7中任一項所述的多分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海拉扎斯信息科技有限公司,未經上海拉扎斯信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910134159.5/1.html,轉載請聲明來源鉆瓜專利網。





