[發(fā)明專利]用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710469134.1 | 申請日: | 2017-06-15 |
| 公開(公告)號: | CN107316082A | 公開(公告)日: | 2017-11-03 |
| 發(fā)明(設(shè)計(jì))人: | 戴文淵;陳雨強(qiáng);楊強(qiáng);羅遠(yuǎn)飛;涂威威 | 申請(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00;G06K9/62 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司11286 | 代理人: | 張?jiān)浦?曾世驍 |
| 地址: | 100085 北京市海淀區(qū)上*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 確定 機(jī)器 學(xué)習(xí) 樣本 特征 重要性 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明的示例性實(shí)施例總體說來涉及人工智能領(lǐng)域,更具體地說,涉及一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法及系統(tǒng)。
背景技術(shù)
隨著海量數(shù)據(jù)的出現(xiàn),人工智能技術(shù)得到了迅速發(fā)展,而為了從海量數(shù)據(jù)中挖掘出價(jià)值,需要基于數(shù)據(jù)記錄來產(chǎn)生適用于機(jī)器學(xué)習(xí)的樣本。
這里,每條數(shù)據(jù)記錄可被看做關(guān)于一個(gè)事件或?qū)ο蟮拿枋觯瑢?yīng)于一個(gè)示例或樣例。在數(shù)據(jù)記錄中,包括反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的各個(gè)事項(xiàng),這些事項(xiàng)可稱為“屬性”。通過對數(shù)據(jù)記錄的屬性信息進(jìn)行諸如特征工程等處理,可產(chǎn)生包括各種特征的機(jī)器學(xué)習(xí)樣本。
實(shí)踐中,機(jī)器學(xué)習(xí)模型的預(yù)測效果與模型的選擇、可用的數(shù)據(jù)和樣本特征的提取均有關(guān)系。此外,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)時(shí)還需要面對計(jì)算資源有限、樣本數(shù)據(jù)不足等客觀問題。因此,如何從原始數(shù)據(jù)記錄的各個(gè)屬性提取出機(jī)器學(xué)習(xí)樣本的特征,將會(huì)對機(jī)器學(xué)習(xí)模型的效果帶來很大的影響。相應(yīng)地,不論從模型訓(xùn)練還是模型理解的角度來看,都很需要獲知機(jī)器學(xué)習(xí)樣本的各特征或特征組合的重要程度。例如,可根據(jù)基于XGBoost訓(xùn)練出的樹模型,計(jì)算每個(gè)特征的期望分裂增益,然后計(jì)算特征重要性。上述方式雖然能考慮特征之間的相互作用,但訓(xùn)練代價(jià)高,且不同參數(shù)對特征重要性的影響較大。
實(shí)際上,特征的重要性難以直觀確定,往往需要技術(shù)人員不僅掌握機(jī)器學(xué)習(xí)的知識,還需要對實(shí)際預(yù)測問題有深入的理解,而預(yù)測問題往往結(jié)合著不同行業(yè)的不同實(shí)踐經(jīng)驗(yàn),這些因素都導(dǎo)致特征提取很難達(dá)到滿意的效果。
發(fā)明內(nèi)容
本發(fā)明的示例性實(shí)施例旨在克服現(xiàn)有技術(shù)中難以有效地衡量機(jī)器學(xué)習(xí)樣本特征重要性的缺陷。
根據(jù)本發(fā)明的示例性實(shí)施例,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的方法,包括:(A)確定機(jī)器學(xué)習(xí)樣本的基本特征子集,其中,基本特征子集包括至少一個(gè)基本特征;(B)確定機(jī)器學(xué)習(xí)樣本的重要性待確定的多個(gè)目標(biāo)特征子集,其中,每一個(gè)目標(biāo)特征子集包括至少一個(gè)目標(biāo)特征;(C)針對所述多個(gè)目標(biāo)特征子集之中的每一個(gè)目標(biāo)特征子集,獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型,其中,所述復(fù)合機(jī)器學(xué)習(xí)模型包括根據(jù)提升框架訓(xùn)練而成的基本子模型和附加子模型,其中,基本子模型基于基本特征子集訓(xùn)練而成,附加子模型基于所述每一個(gè)目標(biāo)特征子集訓(xùn)練而成;以及(D)根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型的效果來確定所述多個(gè)目標(biāo)特征子集的重要性。
可選地,在所述方法中,在步驟(D)中,根據(jù)復(fù)合機(jī)器學(xué)習(xí)模型在相同數(shù)據(jù)集上的效果之間的差異來確定所述多個(gè)目標(biāo)特征子集的重要性。
可選地,在所述方法中,復(fù)合機(jī)器學(xué)習(xí)模型的效果包括復(fù)合機(jī)器學(xué)習(xí)模型的AUC。
可選地,在所述方法中,所述目標(biāo)特征基于基本特征而產(chǎn)生。
可選地,在所述方法中,所述目標(biāo)特征為通過對至少一個(gè)基本特征進(jìn)行組合而得到的組合特征。
可選地,在所述方法中,在步驟(C)中,通過并行地訓(xùn)練多個(gè)復(fù)合機(jī)器學(xué)習(xí)模型來獲取與每一個(gè)目標(biāo)特征子集相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。
可選地,在所述方法中,目標(biāo)特征子集包括通過對至少一個(gè)基本特征進(jìn)行組合而得到的一個(gè)組合特征,并且,所述方法還包括:(E)以圖形化方式向用戶展示確定的各個(gè)組合特征的重要性。
可選地,在所述方法中,在步驟(C)中,通過在固定已經(jīng)訓(xùn)練出的基本子模型的情況下訓(xùn)練附加子模型來獲取相應(yīng)的復(fù)合機(jī)器學(xué)習(xí)模型。
可選地,在所述方法中,基本子模型和附加子模型的類型相同。
根據(jù)本發(fā)明的另一示例性實(shí)施例,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的介質(zhì),其中,在所述計(jì)算機(jī)可讀介質(zhì)上記錄有用于執(zhí)行上述方法的計(jì)算機(jī)程序。
根據(jù)本發(fā)明的另一示例性實(shí)施,提供一種用于確定機(jī)器學(xué)習(xí)樣本的特征重要性的計(jì)算裝置,包括存儲(chǔ)部件和處理器,其中,存儲(chǔ)部件中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令集合,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時(shí),執(zhí)行上述方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710469134.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





