[發明專利]針對海量類別數據進行分批分類的機器學習方法及系統在審
| 申請號: | 201811643314.8 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109977988A | 公開(公告)日: | 2019-07-05 |
| 發明(設計)人: | 冀輝;裴非;李昊;袁曉艷;武新 | 申請(專利權)人: | 天津南大通用數據技術股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 天津濱海科緯知識產權代理有限公司 12211 | 代理人: | 楊慧玲 |
| 地址: | 300384 天津市濱海新區高新區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習 類別數據 分類 分類器 單臺服務器 計算機語言 二次分類 分類結果 模型存儲 內存資源 時間要求 訓練性能 資源要求 子分類 單機 | ||
本發明提出一種針對海量類別數據進行分批分類的機器學習方法及系統,包括:將海量類別數據拆分成多個子分類任務,每個子分類任務只建立局部類別的分類器,滿足內存資源可以實現;多個子分類器結果進行集成,進行二次分類,確定最終的分類結果。通過本發明,可解決分類數量過多時,導致的模型存儲空間,超過計算機語言自身限制,導致無法進行機器學習訓練問題;可解決將單機訓練性能慢,無法滿足時間要求問題;可解決單臺服務器無法滿足訓練的資源要求問題。
技術領域
本發明屬于機器學習領域,特別是涉及一種針對海量類別數據進行分批分類的機器學習方法及系統。
背景技術
數據分類就是把具有某種共同屬性或特征的數據歸并在一起,通過其類別的屬性或特征來對數據進行區別。換句話說,就是相同內容、相同性質的信息以及要求統一管理的信息集合在一起,而把相異的和需要分別管理的信息區分開來,然后確定各個集合之間的關系,形成一個有條理的分類系統。
目前很多數據挖掘系統都實現的多種數據分類算法,這些分類算法在分類數量較少時(如幾個或幾十個),工作的非常好。但當分類數量達到成千上萬時,分類準確率下降明顯,甚至可能因為分類模型過大,導致無法加載到內存問題。尤其在使用JVM技術的分類系統,由于存在整數最大值限制,即使物理服務器配置再大的內存,分類模型大小也無法超過2的31次方大小。這嚴重限制了高維數據的海量分類應用。
發明內容
有鑒于此,本發明提出一種針對海量類別數據進行分批分類的機器學習方法及系統,將海量類別數據拆成系統能夠處理的多個小分類,訓練出多個小分類模型。
為達到上述目的,本發明的技術方案是這樣實現的:
一種針對海量類別數據進行分批分類的機器學習方法,包括:
S1、將海量類別數據拆分成多個子分類任務,每個子分類任務只建立局部類別的分類器,滿足內存資源可以實現;
S2、多個子分類器結果進行集成,進行二次分類,確定最終的分類結果。
進一步的,步驟S1具體包括:
S1.1、將全部數據按類別分隔成系統可以進行訓練、或滿足訓練時間要求的小任務;
S1.2、根據系統要求,對于無需進行類別映射的系統,直接轉到步驟S1.3;對于需要進行映射轉換的系統,實現不同任務間的類別的映射關系;
S1.3、使用每個任務對應的數據,分別訓練各自的模型,得到多個小類別的分類模型。
進一步的,步驟S2包括:
S2.1、對于新的待預測數據,使用多個模型分別進行預測,得到數據在每個模型下的類別相似度;
S2.2、將多個模型的預測值按映射規則進行反向偏移,得到各個模型在新的類別下的相似度;
S2.3、根據類別字典,將多個模型的相似度結果進行拼接,得到完整的各類別相似度;
S2.4、根據預測結果是單分類,還是多分類,從預測值中,選出一個或多個值的索引。
本發明還提供了一種針對海量類別數據進行分批分類的機器學習系統,包括:
拆分模塊,將海量類別數據拆分成多個子分類任務,每個子分類任務只建立局部類別的分類器,滿足內存資源可以實現;
二次分類模塊,用于將多個子分類器結果進行集成,進行二次分類,確定最終的分類結果。
進一步的,拆分模塊包括:
分隔單元,用于將全部數據按類別分隔成系統可以進行訓練、或滿足訓練時間要求的小任務;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津南大通用數據技術股份有限公司,未經天津南大通用數據技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811643314.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:預測影響物理系統的事件
- 下一篇:一種圖像張量數據的處理方法





