[發(fā)明專利]冗余特征檢測方法、檢測裝置、電子設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202110492602.3 | 申請日: | 2021-05-06 |
| 公開(公告)號: | CN113077016A | 公開(公告)日: | 2021-07-06 |
| 發(fā)明(設(shè)計)人: | 李策;孔繁爽;曹帥毅 | 申請(專利權(quán))人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06Q40/06 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 張體南 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 冗余 特征 檢測 方法 裝置 電子設(shè)備 介質(zhì) | ||
本公開提供了一種模型的冗余特征檢測方法,涉及人工智能領(lǐng)域和金融領(lǐng)域。所述冗余特征檢測方法包括:獲得待評估模型的第一特征集合和第一指標(biāo),所述待評估模型包括使用所述第一特征集合和第一機(jī)器學(xué)習(xí)算法基于訓(xùn)練集對初始模型進(jìn)行訓(xùn)練后,獲得的具有第一參數(shù)信息的模型。從所述第一特征集合中剔除M個特征獲得第二特征集合。獲得重構(gòu)模型,所述重構(gòu)模型包括使用所述第二特征集合和所述第一機(jī)器學(xué)習(xí)算法基于所述訓(xùn)練集對所述初始模型進(jìn)行訓(xùn)練后,獲得的具有第二參數(shù)信息的模型。當(dāng)所述重構(gòu)模型的第二指標(biāo)與所述第一指標(biāo)的比值大于或等于第一預(yù)設(shè)閾值時,確定所述M個特征為冗余特征。本公開還提供了一種冗余特征檢測裝置、電子設(shè)備和存儲介質(zhì)。
技術(shù)領(lǐng)域
本公開涉及人工智能領(lǐng)域和金融領(lǐng)域,更具體地,涉及一種模型的冗余特征檢測方法、檢測裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù)
由于機(jī)器學(xué)習(xí)模型在風(fēng)險防控、智能營銷等領(lǐng)域表現(xiàn)出的獨(dú)特優(yōu)勢,越來越多的企業(yè)在日常生產(chǎn)中采用了機(jī)器學(xué)習(xí)模型。例如在銀行業(yè),機(jī)器學(xué)習(xí)模型可以運(yùn)用于授信評審、風(fēng)險審查、智慧營銷等業(yè)務(wù)當(dāng)中。在建立機(jī)器學(xué)習(xí)模型時,需要選取與預(yù)測目標(biāo)相關(guān)的一系列特征,如財務(wù)特征、信用特征、行為特征等。然后訓(xùn)練該機(jī)器學(xué)習(xí)模型,使得模型在這些特征中學(xué)習(xí)判斷規(guī)則,從而在訓(xùn)練完成后實(shí)現(xiàn)對目標(biāo)的預(yù)測。目前對訓(xùn)練完成后的模型的評價主要采用各種評價指標(biāo),指標(biāo)表現(xiàn)好則認(rèn)為模型效果好。
在實(shí)現(xiàn)本公開構(gòu)思的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
由于相關(guān)評價指標(biāo)不能反映出待評估模型是否引入了冗余特征,而且目前針對訓(xùn)練完成后的機(jī)器學(xué)習(xí)模型尚未有檢測冗余特征的有效方法,因此會使得該模型存在過擬合風(fēng)險,并且可能導(dǎo)致因處理冗余特征而出現(xiàn)的算力浪費(fèi)問題。
發(fā)明內(nèi)容
有鑒于此,本公開實(shí)施例提供了一種能夠?qū)C(jī)器學(xué)習(xí)模型進(jìn)行冗余特征檢測的方法和裝置,以及電子設(shè)備和存儲介質(zhì)。
本公開實(shí)施例的一個方面提供了一種模型的冗余特征檢測方法。所述冗余特征檢測方法包括:獲得待評估模型的第一特征集合和第一指標(biāo),其中,所述待評估模型包括使用所述第一特征集合和第一機(jī)器學(xué)習(xí)算法基于訓(xùn)練集對初始模型進(jìn)行訓(xùn)練后,獲得的具有第一參數(shù)信息的模型,所述第一指標(biāo)用于表征所述待評估模型對測試集的預(yù)測性能。從所述第一特征集合中剔除M個特征獲得第二特征集合,其中,M為大于或等于1的整數(shù)。獲得重構(gòu)模型,其中,所述重構(gòu)模型包括使用所述第二特征集合和所述第一機(jī)器學(xué)習(xí)算法基于所述訓(xùn)練集對所述初始模型進(jìn)行訓(xùn)練后,獲得的具有第二參數(shù)信息的模型。當(dāng)所述重構(gòu)模型的第二指標(biāo)與所述第一指標(biāo)的比值大于或等于第一預(yù)設(shè)閾值時,確定所述M個特征為冗余特征,其中,所述第二指標(biāo)用于表征所述重構(gòu)模型對所述測試集的預(yù)測性能。
根據(jù)本公開的實(shí)施例,所述方法包括重復(fù)執(zhí)行所述剔除、獲得重構(gòu)模型、以及確定冗余特征的操作,直至檢測完成所述第一特征集合中的全部特征。則,所述從所述第一特征集合中剔除M個特征獲得第二特征集合包括:從所述第一特征集合中逐個剔除特征。其中,當(dāng)確定一個特征為非冗余特征時,將該特征在下一次檢測過程中放回后重復(fù)執(zhí)行所述剔除、獲得重構(gòu)模型、以及確定冗余特征的操作。
根據(jù)本公開的實(shí)施例,從所述第一特征集合中逐個剔除特征包括:將i的初始值賦為[1,N]內(nèi)的任一數(shù)值,循環(huán)執(zhí)行以下操作直至循環(huán)N次,其中,N為第一特征集合中的特征的個數(shù),i為大于或等于1的整數(shù):從所述第一特征集合中剔除第i個特征,獲得對應(yīng)的所述第二特征集合。當(dāng)確定所述第i個特征為冗余特征時,剔除所述第i個特征,然后令i=i+1。當(dāng)確定所述第i個特征為非冗余特征時,放回所述第i個特征,然后令i=i+1。
根據(jù)本公開的實(shí)施例,從所述第一特征集合中剔除第i個特征,獲得對應(yīng)的所述第二特征集合后,所述獲得所述重構(gòu)模型包括:基于所述待評估模型的第一超參數(shù)信息配置訓(xùn)練過程,使用所述第二特征集合和所述第一機(jī)器學(xué)習(xí)算法基于所述訓(xùn)練集訓(xùn)練所述初始模型,獲得所述重構(gòu)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國工商銀行股份有限公司,未經(jīng)中國工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110492602.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種組合式防偽瓶蓋及其裝配方法
- 下一篇:一種顯微血管電凝吸引刮匙
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種針對ASIC設(shè)計中網(wǎng)表邏輯冗余的優(yōu)化方法及系統(tǒng)
- 可自動恢復(fù)冗余的冗余控制系統(tǒng)及其冗余自動恢復(fù)方法
- 一種具備冗余接口的列控車載設(shè)備
- 可自動恢復(fù)冗余的冗余控制系統(tǒng)
- 一種監(jiān)測冗余網(wǎng)絡(luò)完整性的方法和冗余裝置
- 冗余修正電路及應(yīng)用其的冗余修正方法
- N:1有狀態(tài)應(yīng)用網(wǎng)關(guān)冗余方法、系統(tǒng)和備用服務(wù)網(wǎng)關(guān)
- 冗余網(wǎng)絡(luò)中的信息共享方法及裝置、計算機(jī)存儲介質(zhì)
- 帶反饋校正的冗余結(jié)構(gòu)
- 一種冗余制動單元及車輛





