[發(fā)明專利]針對海量類別數(shù)據(jù)進行分批分類的機器學(xué)習(xí)方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811643314.8 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109977988A | 公開(公告)日: | 2019-07-05 |
| 發(fā)明(設(shè)計)人: | 冀輝;裴非;李昊;袁曉艷;武新 | 申請(專利權(quán))人: | 天津南大通用數(shù)據(jù)技術(shù)股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 天津濱海科緯知識產(chǎn)權(quán)代理有限公司 12211 | 代理人: | 楊慧玲 |
| 地址: | 300384 天津市濱海新區(qū)高新區(qū)*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 機器學(xué)習(xí) 類別數(shù)據(jù) 分類 分類器 單臺服務(wù)器 計算機語言 二次分類 分類結(jié)果 模型存儲 內(nèi)存資源 時間要求 訓(xùn)練性能 資源要求 子分類 單機 | ||
1.一種針對海量類別數(shù)據(jù)進行分批分類的機器學(xué)習(xí)方法,其特征在于,包括:
S1、將海量類別數(shù)據(jù)拆分成多個子分類任務(wù),每個子分類任務(wù)只建立局部類別的分類器,滿足內(nèi)存資源可以實現(xiàn);
S2、多個子分類器結(jié)果進行集成,進行二次分類,確定最終的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S1具體包括:
S1.1、將全部數(shù)據(jù)按類別分隔成系統(tǒng)可以進行訓(xùn)練、或滿足訓(xùn)練時間要求的小任務(wù);
S1.2、根據(jù)系統(tǒng)要求,對于無需進行類別映射的系統(tǒng),直接轉(zhuǎn)到步驟S1.3;對于需要進行映射轉(zhuǎn)換的系統(tǒng),實現(xiàn)不同任務(wù)間的類別的映射關(guān)系;
S1.3、使用每個任務(wù)對應(yīng)的數(shù)據(jù),分別訓(xùn)練各自的模型,得到多個小類別的分類模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S2包括:
S2.1、對于新的待預(yù)測數(shù)據(jù),使用多個模型分別進行預(yù)測,得到數(shù)據(jù)在每個模型下的類別相似度;
S2.2、將多個模型的預(yù)測值按映射規(guī)則進行反向偏移,得到各個模型在新的類別下的相似度;
S2.3、根據(jù)類別字典,將多個模型的相似度結(jié)果進行拼接,得到完整的各類別相似度;
S2.4、根據(jù)預(yù)測結(jié)果是單分類,還是多分類,從預(yù)測值中,選出一個或多個值的索引。
4.一種針對海量類別數(shù)據(jù)進行分批分類的機器學(xué)習(xí)系統(tǒng),其特征在于,包括:
拆分模塊,將海量類別數(shù)據(jù)拆分成多個子分類任務(wù),每個子分類任務(wù)只建立局部類別的分類器,滿足內(nèi)存資源可以實現(xiàn);
二次分類模塊,用于將多個子分類器結(jié)果進行集成,進行二次分類,確定最終的分類結(jié)果。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,拆分模塊包括:
分隔單元,用于將全部數(shù)據(jù)按類別分隔成系統(tǒng)可以進行訓(xùn)練、或滿足訓(xùn)練時間要求的小任務(wù);
映射單元,用于根據(jù)系統(tǒng)要求,對于無需進行類別映射的系統(tǒng),直接轉(zhuǎn)到訓(xùn)練單元;對于需要進行映射轉(zhuǎn)換的系統(tǒng),實現(xiàn)不同任務(wù)間的類別的映射關(guān)系;
訓(xùn)練單元,用于使用每個任務(wù)對應(yīng)的數(shù)據(jù),分別訓(xùn)練各自的模型,得到多個小類別的分類模型。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,二次分類模塊包括:
預(yù)測單元,用于對于新的待預(yù)測數(shù)據(jù),使用多個模型分別進行預(yù)測,得到數(shù)據(jù)在每個模型下的類別相似度;
偏移單元,用于將多個模型的預(yù)測值按映射規(guī)則進行反向偏移,得到各個模型在新的類別下的相似度;
拼接單元,用于根據(jù)類別字典,將多個模型的相似度結(jié)果進行拼接,得到完整的各類別相似度;
分類單元,用于根據(jù)預(yù)測結(jié)果是單分類,還是多分類,從預(yù)測值中,選出一個或多個值的索引。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津南大通用數(shù)據(jù)技術(shù)股份有限公司,未經(jīng)天津南大通用數(shù)據(jù)技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811643314.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 在多個機器學(xué)習(xí)任務(wù)上訓(xùn)練機器學(xué)習(xí)模型
- 用于機器學(xué)習(xí)系統(tǒng)的學(xué)習(xí)教練
- 用于訓(xùn)練機器學(xué)習(xí)模型的方法及系統(tǒng)
- 用于機器學(xué)習(xí)模型的并行化坐標(biāo)下降法
- 機器學(xué)習(xí)裝置和機器學(xué)習(xí)裝置的機器學(xué)習(xí)方法
- 一種機器學(xué)習(xí)程序更新方法、裝置及設(shè)備
- 模型優(yōu)化方法、裝置、存儲介質(zhì)及服務(wù)器
- 修改機器學(xué)習(xí)模型以改善局部性
- 管理機器學(xué)習(xí)特征
- 一種基于強化學(xué)習(xí)的自動化機器學(xué)習(xí)系統(tǒng)
- 使用公眾網(wǎng)站獲取元數(shù)據(jù)
- 擁塞控制的方法、無線網(wǎng)狀網(wǎng)節(jié)點和系統(tǒng)
- 一種基于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)類別識別方法及裝置
- 一種數(shù)據(jù)操作方法及裝置
- 一種基于跨類別遷移主動學(xué)習(xí)的圖像分類方法
- 多分類器的在線調(diào)整方法、裝置、存儲介質(zhì)及電子設(shè)備
- 一種對數(shù)據(jù)表進行分類的方法、系統(tǒng)、終端和存儲介質(zhì)
- 項目處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種人體生理疲勞數(shù)據(jù)標(biāo)記方法及疲勞識別模型
- 一種數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)





