[發明專利]小樣本使用方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201810949574.1 | 申請日: | 2018-08-20 |
| 公開(公告)號: | CN109325020A | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 周南光 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/25;G06F16/28;G06F16/182;G06Q30/02 |
| 代理公司: | 深圳市明日今典知識產權代理事務所(普通合伙) 44343 | 代理人: | 王杰輝 |
| 地址: | 518000 廣東省深圳市福田區益田路503*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建模數據 模型信息 數據特征 計算機設備 存儲介質 配置表 小樣本 預設 預處理 小樣本問題 生成模型 數據表現 特征數據 原始文件 大數據 建模 清洗 | ||
本發明涉及大數據領域,特別涉及一種小樣本使用方法、裝置、計算機設備和存儲介質。所述方法包括:獲取原始文件中的數據特征;依次對所述數據特征進行IV和WOE計算,生成對所述特征數據進行預處理清洗后的建模數據;根據預設配置表中的多個模型信息以及所述建模數據,建立所述多個模型信息分別對應的模型;獲取所述多個模型的數據表現,生成所述多個模型分別對應的模型報表。通過對數據特征進行WOE、IV計算,生成建模數據,根據建模數據和預設配置表中的模型信息,生成模型報表,旨在解決現有的建模中,較少使用小樣本問題。
技術領域
本發明涉及大數據領域,特別涉及一種小樣本使用方法、裝置、計算機設備和存儲介質。
背景技術
在現有的技術中,利用機器學習平臺進行數據建模時,涉及到集群資源分配不足、小樣本數據集分發時間鏈路長、高級模型開發周期長等缺點,由于小樣本建模時間長,調試不便的問題,在現有的建模中,較少使用小樣本。
發明內容
針對現有技術不足,本發明提出一種小樣本使用方法、裝置、計算機設備和存儲介質,通過對數據特征進行WOE、IV計算,生成建模數據,根據建模數據和預設配置表中的模型信息,生成模型報表,旨在解決現有的建模中,較少使用小樣本問題。
本發明提出的技術方案是:
一種小樣本使用方法,所述方法包括:
獲取原始文件中的數據特征;
依次對所述數據特征進行IV和WOE計算,生成對所述特征數據進行預處理清洗后的建模數據;
根據預設配置表中的多個模型信息以及所述建模數據,建立所述多個模型信息分別對應的模型;
獲取所述多個模型的數據表現,生成所述多個模型分別對應的模型報表。
進一步地,在所述獲取所述多個模型的數據表現,生成所述多個模型分別對應的模型報表的步驟之后,所述方法包括:
根據所述多個模型的數據表現,分別對每個模型進行迭代和參數優化。
進一步地,在所述獲取原始文件中的數據特征的步驟中,包括:
將Hadoop集群上的hdfs數據文件轉換成csv文件;
讀取所述csv文件中的所述數據特征。
進一步地,在所述讀取所述csv文件中的所述數據特征的步驟中,包括:
配置單機程序對所述csv文件運算所需要的參數文件,所述參數文件包括模型ID、數據文件名、數據ID列、數據剔除特征列、目標特征列和模型算法;
將所述csv文件輸入所述單機程序運算;
讀取所述csv文件中的所述數據特征。
進一步地,在所述依次對所述數據特征進行IV和WOE計算,生成對所述特征數據進行預處理清洗后的建模數據的步驟中,包括:
對每一個數據特征進行IV計算,得到各數據特征的IV值;
按照數值大小對各數據特征的IV值進行排序,根據所述排序的順序篩選出第一數量的目標IV值,并獲取所述目標IV值對應的目標數據特征;
對所述目標數據特征進行WOE計算,得到所述目標數據特征的WOE映射關系表;
根據所述目標數據特征的WOE映射關系,將所述目標數據特征轉換為建模數據。
進一步地,所述預設配置表中的多個模型信息包括xgboost模型信息、gbdt模型信息、lightGBM模型信息、catboost模型信息和tensorflow模型信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810949574.1/2.html,轉載請聲明來源鉆瓜專利網。





