[發(fā)明專(zhuān)利]用于構(gòu)建機(jī)器學(xué)習(xí)模型的特征選取方法、裝置以及設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201811244486.8 | 申請(qǐng)日: | 2018-10-24 |
| 公開(kāi)(公告)號(hào): | CN109460825A | 公開(kāi)(公告)日: | 2019-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 唐渝洲;金宏;王維強(qiáng);趙聞飆 | 申請(qǐng)(專(zhuān)利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類(lèi)號(hào): | G06N20/00 | 分類(lèi)號(hào): | G06N20/00 |
| 代理公司: | 北京億騰知識(shí)產(chǎn)權(quán)代理事務(wù)所 11309 | 代理人: | 張明;周良玉 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 開(kāi)曼群島;KY |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練數(shù)據(jù)集 訓(xùn)練數(shù)據(jù) 子集 特征選取 機(jī)器學(xué)習(xí)模型 評(píng)價(jià)指標(biāo) 構(gòu)建 篩選 裝置及設(shè)備 并行執(zhí)行 目標(biāo)特征 訓(xùn)練機(jī)器 預(yù)設(shè) 排序 融合 預(yù)測(cè) 學(xué)習(xí) | ||
1.一種用于構(gòu)建機(jī)器學(xué)習(xí)模型的特征選取方法,包括:
獲取訓(xùn)練數(shù)據(jù)集;
根據(jù)預(yù)設(shè)的拆分方式,對(duì)所述訓(xùn)練數(shù)據(jù)集進(jìn)行拆分,以獲得k組訓(xùn)練數(shù)據(jù)子集;
對(duì)所述k組訓(xùn)練數(shù)據(jù)子集,并行執(zhí)行如下過(guò)程k次:
從所述k組訓(xùn)練數(shù)據(jù)子集中選取k-1組訓(xùn)練數(shù)據(jù)子集,以作為當(dāng)前訓(xùn)練數(shù)據(jù)集;
根據(jù)所述當(dāng)前訓(xùn)練數(shù)據(jù)集,計(jì)算多個(gè)待篩選的特征的m個(gè)評(píng)價(jià)指標(biāo);
根據(jù)各個(gè)評(píng)價(jià)指標(biāo),對(duì)所述多個(gè)特征進(jìn)行排序,從而得到m組所述多個(gè)特征的指標(biāo)排名;
基于所述當(dāng)前訓(xùn)練數(shù)據(jù)集,訓(xùn)練機(jī)器學(xué)習(xí)模型,以預(yù)測(cè)一組所述多個(gè)特征的重要性排名;
將k次得到的k*m組指標(biāo)排名以及k組重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總排名;
根據(jù)所述總排名,從所述多個(gè)特征中選取目標(biāo)特征。
2.根據(jù)權(quán)利要求1所述的方法,所述將k次得到的k*m組指標(biāo)排名以及k組重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總排名,包括:
對(duì)所述k*m組指標(biāo)排名進(jìn)行融合,以獲取所述多個(gè)特征的總指標(biāo)排名;
對(duì)所述k組重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總重要性排名;
將所述總指標(biāo)排名與所述總重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總排名。
3.根據(jù)權(quán)利要求2所述的方法,所述對(duì)所述k*m組指標(biāo)排名進(jìn)行融合,以獲取所述多個(gè)特征的總指標(biāo)排名,包括:
從所述k*m組指標(biāo)排名中抽取依據(jù)同一評(píng)價(jià)指標(biāo)所獲得的k組指標(biāo)排名;
根據(jù)第一排序融合算法,分別對(duì)各個(gè)特征在所述k組指標(biāo)排名中對(duì)應(yīng)的排名進(jìn)行融合,以獲取所述各個(gè)特征與所述評(píng)價(jià)指標(biāo)對(duì)應(yīng)的指標(biāo)綜合排名;
重復(fù)執(zhí)行上述抽取以及融合處理的步驟,直至獲取到所述各個(gè)特征與所述m個(gè)評(píng)價(jià)指標(biāo)對(duì)應(yīng)的m個(gè)指標(biāo)綜合排名;
根據(jù)第二排序融合算法,分別將所述各個(gè)特征的所述m個(gè)指標(biāo)綜合排名進(jìn)行融合,以獲取所述各個(gè)特征的總指標(biāo)排名。
4.根據(jù)權(quán)利要求2所述的方法,所述對(duì)所述k組重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總重要性排名,包括:
根據(jù)第三排序融合算法,分別對(duì)所述各個(gè)特征在所述k組重要性排名中對(duì)應(yīng)的排名進(jìn)行融合,以獲取所述各個(gè)特征的總重要性排名。
5.根據(jù)權(quán)利要求2所述的方法,所述將所述總指標(biāo)排名與所述總重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總排名,包括:
根據(jù)第四排序融合算法,將所述總指標(biāo)排名與所述總重要性排名進(jìn)行融合,以獲取所述多個(gè)特征的總排名。
6.根據(jù)權(quán)利要求2所述的方法,所述第一排序融合算法或者所述第二融合排序算法包括以下任一種:均值算法、最大值算法、最小值算法、加權(quán)平均值算法以及魯棒性聚合RRA算法。
7.根據(jù)權(quán)利要求1所述的方法,所述預(yù)設(shè)的拆分方式包括以下任一種:時(shí)間拆分方式以及隨機(jī)拆分方式。
8.根據(jù)權(quán)利要求1所述的方法,所述評(píng)價(jià)指標(biāo)包括:信息價(jià)值IV、基尼系數(shù)GINI、信息增益IG、互信息MI、Releif分?jǐn)?shù)以及樣本穩(wěn)定指數(shù)PSI中的若干個(gè)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811244486.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 數(shù)據(jù)處理設(shè)備和數(shù)據(jù)處理方法
- 訓(xùn)練數(shù)據(jù)的生成方法及裝置
- 樣本數(shù)據(jù)清洗方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于攝像機(jī)焦距變換的目標(biāo)檢測(cè)方法、存儲(chǔ)介質(zhì)及處理器
- 一種訓(xùn)練數(shù)據(jù)獲取方法及裝置
- 用于分類(lèi)的系統(tǒng)和方法
- 基于TextCNN同分布文本數(shù)據(jù)選擇方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種模型迭代方法、系統(tǒng)及計(jì)算機(jī)設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集緩存方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種訓(xùn)練數(shù)據(jù)的模型訓(xùn)練方法及裝置
- 模型訓(xùn)練系統(tǒng)、方法和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)訓(xùn)練方法、裝置及服務(wù)器
- 在數(shù)據(jù)隱私保護(hù)下執(zhí)行機(jī)器學(xué)習(xí)的方法和系統(tǒng)
- 獲取訓(xùn)練數(shù)據(jù)的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 虛擬維修訓(xùn)練平臺(tái)開(kāi)發(fā)系統(tǒng)
- 分類(lèi)模型的訓(xùn)練方法、數(shù)據(jù)風(fēng)險(xiǎn)類(lèi)別的檢測(cè)方法及裝置
- 一種訓(xùn)練數(shù)據(jù)的糾錯(cuò)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于音視頻的魯棒情感建模系統(tǒng)





