[發明專利]數據特征確定方法、裝置及電子設備有效
| 申請號: | 202110045213.6 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112364012B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 顧凌云;謝旻旗;段灣;張濤;潘峻;陳尚偉 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06Q40/02;G06Q10/06 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 特征 確定 方法 裝置 電子設備 | ||
1.一種數據特征確定方法,其特征在于,應用于電子設備,所述方法包括以下步驟:
獲取待處理數據集;
設定初始的已選特征集合和必不選特征集合;根據所述待處理數據集的初始數據特征集合、所述已選特征集合以及所述必不選特征集合,確定候選特征集合;
設定最大入模變量數,方差膨脹因子閾值,以及模型AUC指標的最小提升閾值;
遍歷所述候選特征集合,得到當前輪遍歷結果;
從所述當前輪遍歷結果中確定出AUC最大值,判斷所述當前輪遍歷結果的AUC最大值與上一輪遍歷結果的AUC最大值的差值是否大于所述最小提升閾值;
若是,則將所述當前輪遍歷結果的AUC最大值對應的目標特征添加到所述已選特征集合中并將所述目標特征從所述候選特征集合中移除,并返回執行遍歷所述候選特征集合,得到當前輪遍歷結果,直至所述已選特征集合中的特征數量達到所述最大入模變量數,然后將所述已選特征集合中的特征作為最終數據特征;
若否,將所述已選特征集合中的特征作為最終數據特征;
其中,遍歷所述候選特征集合,得到當前輪遍歷結果,包括:
每次從所述候選特征集合挑選出一個待處理特征,并將所述待處理特征與所述已選特征集合進行組合,然后構建邏輯回歸模型;
將所述邏輯回歸模型在所述初始數據特征集合上進行五折的交叉驗證,記錄所述待處理特征對應所述構建邏輯回歸模型的五次交叉驗證AUC指標的平均值以及五次交叉驗證的方差膨脹因子的最大值;
若所述待處理特征對應的方差膨脹因子的最大值大于所述方差膨脹因子閾值,將所述待處理特征從所述候選特征集合中刪除;
若所述待處理特征對應的方差膨脹因子的最大值小于等于所述方差膨脹因子閾值,則保留所述待處理特征。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:采用所述最終數據特征對目標模型進行訓練和預測。
3.根據權利要求1所述的方法,其特征在于,根據所述待處理數據集的初始數據特征集合、所述已選特征集合以及所述必不選特征集合,確定候選特征集合,包括:
從所述初始數據特征集合中剔除所述已選特征集合和所述必不選特征集合以得到所述候選特征集合。
4.一種數據特征確定裝置,其特征在于,應用于電子設備,所述裝置包括以下模塊:
數據獲取模塊,用于獲取待處理數據集;
特征確定模塊,用于設定初始的已選特征集合和必不選特征集合;根據所述待處理數據集的初始數據特征集合、所述已選特征集合以及所述必不選特征集合,確定候選特征集合;
變量設定模塊,用于設定最大入模變量數,方差膨脹因子閾值,以及模型AUC指標的最小提升閾值;
特征遍歷模塊,用于遍歷所述候選特征集合,得到當前輪遍歷結果;
特征篩選模塊,用于從所述當前輪遍歷結果中確定出AUC最大值,判斷所述當前輪遍歷結果的AUC最大值與上一輪遍歷結果的AUC最大值的差值是否大于所述最小提升閾值;
若是,則將所述當前輪遍歷結果的AUC最大值對應的目標特征添加到所述已選特征集合中并將所述目標特征從所述候選特征集合中移除,并返回執行遍歷所述候選特征集合,得到當前輪遍歷結果,直至所述已選特征集合中的特征數量達到所述最大入模變量數,然后將所述已選特征集合中的特征作為最終數據特征;
若否,將所述已選特征集合中的特征作為最終數據特征;
其中,所述特征遍歷模塊遍歷所述候選特征集合,得到當前輪遍歷結果具體包括:
每次從所述候選特征集合挑選出一個待處理特征,并將所述待處理特征與所述已選特征集合進行組合,然后構建邏輯回歸模型;
將所述邏輯回歸模型在所述初始數據特征集合上進行五折的交叉驗證,記錄所述待處理特征對應所述構建邏輯回歸模型的五次交叉驗證AUC指標的平均值以及五次交叉驗證的方差膨脹因子的最大值;
若所述待處理特征對應的方差膨脹因子的最大值大于所述方差膨脹因子閾值,將所述待處理特征從所述候選特征集合中刪除;
若所述待處理特征對應的方差膨脹因子的最大值小于等于所述方差膨脹因子閾值,則保留所述待處理特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110045213.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種辣條包裝用包裝裝置
- 下一篇:一種全自動焊條涂裝機
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





