[發(fā)明專利]一種基于分類和回歸算法的模型集成方法、裝置在審
| 申請?zhí)枺?/td> | 202110604604.7 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113326882A | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計)人: | 楊成成 | 申請(專利權(quán))人: | 浪潮通用軟件有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京君慧知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11716 | 代理人: | 董延麗 |
| 地址: | 250101 山東省濟(jì)*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分類 回歸 算法 模型 集成 方法 裝置 | ||
本申請公開了一種基于分類和回歸算法的模型集成方法、裝置,該方法包括:對采集到的數(shù)據(jù)集進(jìn)行處理,生成特征集,其中,特征集包括分類特征以及對應(yīng)的分類標(biāo)簽、回歸特征以及對應(yīng)的回歸標(biāo)簽;根據(jù)待處理事項,選定對應(yīng)的分類算法與回歸算法;根據(jù)分類算法與回歸算法構(gòu)成集成模型,并將特征集輸入集成模型進(jìn)行訓(xùn)練;確定集成模型的分類評估標(biāo)準(zhǔn)與回歸評估標(biāo)準(zhǔn),對訓(xùn)練后的集成模型進(jìn)行模型評估;判斷模型評估的結(jié)果是否達(dá)到預(yù)設(shè)目標(biāo),若是,將訓(xùn)練完成的集成模型保存。
技術(shù)領(lǐng)域
本申請涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于分類和回歸算法的模型集成方法、裝置。
背景技術(shù)
機(jī)器學(xué)習(xí)方法在生產(chǎn)、科研和生活中有著廣泛應(yīng)用。在機(jī)器學(xué)習(xí)初期,一般都用單個的學(xué)習(xí)器進(jìn)行事物的學(xué)習(xí)。但單個學(xué)習(xí)器要么容易欠擬合,要么容易過擬合,為了獲得泛化性能優(yōu)良的學(xué)習(xí)器,一般通過訓(xùn)練多個個體學(xué)習(xí)器并根據(jù)一定的結(jié)合策略,最終訓(xùn)練形成一個強學(xué)習(xí)器。
這種形成強學(xué)習(xí)器的方法就是集成方法。集成方法(Ensemble Learning)有時也被籠統(tǒng)地稱作提升(Boosting)方法,廣泛用于分類和回歸任務(wù)。
但是現(xiàn)有集成方法大多只是的將不同的針對同一標(biāo)簽、同一類型的單一算法的弱模型進(jìn)行集成,這樣只能進(jìn)行單一維度的預(yù)測。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N基于分類和回歸算法的模型集成方法、裝置,解決了單一算法的模型集成時不能進(jìn)行同一目標(biāo)在不同維度上的預(yù)測的技術(shù)問題。
一種基于分類和回歸算法的模型集成方法,包括:
對采集到的數(shù)據(jù)集進(jìn)行處理,生成特征集,其中,特征集包括分類特征以及對應(yīng)的分類標(biāo)簽、回歸特征以及對應(yīng)的回歸標(biāo)簽;
根據(jù)待處理事項,選定對應(yīng)的分類算法與回歸算法;
根據(jù)分類算法與回歸算法構(gòu)成集成模型,并將特征集輸入集成模型進(jìn)行訓(xùn)練;
確定集成模型的分類評估標(biāo)準(zhǔn)與回歸評估標(biāo)準(zhǔn),對訓(xùn)練后的集成模型進(jìn)行模型評估;
判斷模型評估的結(jié)果是否達(dá)到預(yù)設(shè)目標(biāo),若是,將訓(xùn)練完成的集成模型保存。
在本申請的一種實施例中,對采集到的數(shù)據(jù)集進(jìn)行處理之前,所述方法還包括:對采集到的數(shù)據(jù)集進(jìn)行探索性數(shù)據(jù)分析,確定數(shù)據(jù)集中的異常數(shù)據(jù)。
在本申請的一種實施例中,對采集到的數(shù)據(jù)集進(jìn)行探索性數(shù)據(jù)分析,確定數(shù)據(jù)集中的異常數(shù)據(jù),具體包括:采集數(shù)據(jù)集;對數(shù)據(jù)集進(jìn)行分析,確定數(shù)據(jù)集中特征間的相互關(guān)系;根據(jù)相互關(guān)系,確定數(shù)據(jù)集中的缺失數(shù)據(jù)和異常數(shù)據(jù)。
在本申請的一種實施例中,對采集到的數(shù)據(jù)集進(jìn)行處理,生成特征集,具體包括:對數(shù)據(jù)集中的缺失數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;將數(shù)據(jù)清洗后的數(shù)據(jù)集中不同形式的數(shù)據(jù)轉(zhuǎn)換為機(jī)器可識別的形式,作為原始特征;對原始特征進(jìn)行特征選擇,并對選擇得到的若干特征進(jìn)行特征降維,得到對應(yīng)的分類特征和回歸特征,作為特征集。
在本申請的一種實施例中,并將特征集輸入集成模型進(jìn)行訓(xùn)練,具體包括:將特征集中的分類特征以及對應(yīng)的分類標(biāo)簽,輸入集成模型進(jìn)行訓(xùn)練,得到對應(yīng)的分類參數(shù);將特征集中的回歸特征以及對應(yīng)的回歸標(biāo)簽,輸入集成模型進(jìn)行訓(xùn)練,得到對應(yīng)的回歸參數(shù)。
在本申請的一種實施例中,確定集成模型的分類評估標(biāo)準(zhǔn)與回歸評估標(biāo)準(zhǔn),對訓(xùn)練后的集成模型進(jìn)行模型評估,具體包括:確定分類算法對應(yīng)的評估標(biāo)準(zhǔn)為曲線下的面積AUC評估方式,確定回歸算法對應(yīng)的評估標(biāo)準(zhǔn)為均方根誤差RMSE評估方式;利用AUC評估方式和RMSE評估方式對集成模型進(jìn)行評估。
在本申請的一種實施例中,所述方法還包括:當(dāng)AUC評估方式對應(yīng)的誤差大于第一預(yù)設(shè)閾值或者RMSE評估方式對應(yīng)的誤差大于第二預(yù)設(shè)閾值時,重新對數(shù)據(jù)集進(jìn)行處理或?qū)赡P瓦M(jìn)行調(diào)參操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮通用軟件有限公司,未經(jīng)浪潮通用軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110604604.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





