[發明專利]數據特征確定方法、裝置及電子設備有效
| 申請號: | 202110045213.6 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112364012B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 顧凌云;謝旻旗;段灣;張濤;潘峻;陳尚偉 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06Q40/02;G06Q10/06 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 特征 確定 方法 裝置 電子設備 | ||
本發明所提供的數據特征確定方法、裝置及電子設備,允許在初始階段設定已選特征集合和必不選特征集合,對特征選擇添加了先驗特征,減少了不必要特征篩選的計算量。對特征使用了方差膨脹因子指標進行篩選,減少了特征之間存在多重共線性的可能性,有效降低了特征冗余的現象,提高了模型應用于信貸業務的性能。預設了最小提升閾值,對已經達到性能要求的模型提前停止,降低了模型后續無意義的計算,減少了計算量。根據最終數據特征所訓練的模型,相較原有模型在信貸業務場景中有著更好的性能,提取特征所需的計算量相對較小且提取出來的特征鮮有相關性,再達到相同性能前提下所需的特征數量更少,也在一定程度上降低了數據存儲所需的空間。
技術領域
本發明涉及數據特征處理技術領域,具體而言,涉及一種數據特征確定方法、裝置及電子設備。
背景技術
現有的業務場景(例如信貸場景)中用戶數據的特征非常多,對這些特征進行特征篩選既有利于過濾冗余和無效特征,也有利于提升模型預測的效果。對用戶數據進行特征選擇的方法主要有兩類:一類是基于業務的人工特征選擇,一般是技術人員結合信貸業務的相關知識、經驗,人工剔除一些可能表現不好的特征;另一類是基于LogisticRegression(邏輯回歸)的前向特征選擇或后向特征選擇。
第一類方法對技術人員的業務要求較高,需要進行人工特征選擇,所以效率較低,而且效果不穩定,經常存在誤判的現象,即將某個表現良好的特征刪除、或是將某個表現不佳的特征保留。
第二類方法就基于Logistic Regression的前向特征選擇而言,由于每輪都要將剩余的所有特征逐一與已選特征結合來訓練模型,所以計算的時間復雜度較高。此外,之后加入的特征有可能與已選特征中的某些特征相關,形成多重共線性,致使特征出現冗余。后向特征選擇的缺點與前向的基本相同。
發明內容
為了改善上述問題,本發明提供了一種數據特征確定方法、裝置及電子設備。
第一方面,提供一種數據特征確定方法,應用于電子設備,所述方法包括以下步驟:
獲取待處理數據集;
設定初始的已選特征集合和必不選特征集合;根據所述待處理數據集的初始數據特征集合、所述已選特征集合以及所述必不選特征集合,確定候選特征集合;
設定最大入模變量數,方差膨脹因子閾值,以及模型AUC指標的最小提升閾值;
遍歷所述候選特征集合,得到當前輪遍歷結果;
從所述當前輪遍歷結果中確定出AUC最大值,判斷所述當前輪遍歷結果的AUC最大值與上一輪遍歷結果的AUC最大值的差值是否大于所述最小提升閾值;
若是,則將所述當前輪遍歷結果的AUC最大值對應的目標特征添加到所述已選特征集合中并將所述目標特征從所述候選特征集合中移除,并返回執行遍歷所述候選特征集合,得到當前輪遍歷結果,直至所述已選特征集合中的特征數量達到所述最大入模變量數,然后將所述已選特征集合中的特征作為最終數據特征;
若否,將所述已選特征集合中的特征作為最終數據特征。
可選地,所述方法還包括:采用所述最終數據特征對目標模型進行訓練和預測。
可選地,根據所述待處理數據集的初始數據特征集合、所述已選特征集合以及所述必不選特征集合,確定候選特征集合,包括:
從所述初始數據特征集合中剔除所述已選特征集合和所述必不選特征集合以得到所述候選特征集合。
可選地,遍歷所述候選特征集合,得到當前輪遍歷結果,包括:
每次從所述候選特征集合挑選出一個待處理特征,并將所述待處理特征與所述已選特征集合進行組合,然后構建邏輯回歸模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110045213.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種辣條包裝用包裝裝置
- 下一篇:一種全自動焊條涂裝機
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





