[發明專利]數據模型訓練方法、系統及計算機設備在審
| 申請號: | 201910665010.X | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110517154A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 王進;劉行行 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06Q40/08 | 分類號: | G06Q40/08;G06K9/62 |
| 代理公司: | 11015 北京英特普羅知識產權代理有限公司 | 代理人: | 林彥之<國際申請>=<國際公布>=<進入 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 特征字段 特征項 預設 訓練數據集 數據異常 特征列 檢測 準確度 數據模型 異常數據 影響數據 有效地 核保 客戶 樣本 孤立 預測 記錄 分析 | ||
1.一種數據模型訓練方法,其特征在于,所述方法包括:
獲取第一訓練數據集,所述第一訓練數據集包括多個客戶樣本的多個樣本數據集;
將每個樣本數據集中的多個樣本數據記錄到多個預設風險特征項對應的多個風險特征字段中,得到與所述多個風險特征字段對應的多個風險特征列;
對每個風險特征字段對應的風險特征列進行分析,得到每個預設風險特征項的WoE;及
通過所述多個樣本數據集和所述多個預設風險特征項對應的多個WoE訓練多顆孤立樹,以得到數據異常檢測模型。
2.如權利要求1所述的數據模型訓練方法,其特征在于,獲取第一訓練數據集的步驟,包括:
根據多個預設風險特征項配置目標數據庫的多個風險特征字段,并將每個風險特征字段與多個數據源中的對應字段建立映射關系;
根據所述映射關系,從所述多個數據源中抽取多個客戶樣本的多個原始數據集;及
清洗缺失多個風險特征數據的無效的原始數據集,以從所述多個原始數據集中獲取有效的所述多個樣本數據集。
3.如權利要求2所述的數據模型訓練方法,其特征在于,根據所述映射關系,從所述多個數據源中抽取多個客戶樣本的多個原始數據集的步驟,包括:
當同一客戶樣本的同一風險特征字段對應有多個數據源中的多個風險特征數據時,根據各個數據源的預設權重系數,選擇權重系數最高的數據源對應的風險特征數據。
4.如權利要求3所述的保單核保模型訓練方法,其特征在于,計算每個預設風險特征項的WoE的公式如下:
WoEi表示預設風險特征項i取值對保單核保風險評估結果的影響系數,Pyi表示預設風險特征項i在各個取值區間的高風險核保數量與全部區間的高風險核保數量之比;Pzi表示預設風險特征項i在各個取值區間的非高風險核保數量與全部區間的非高風險核保數量之比。
5.如權利要求4所述的數據模型訓練方法,其特征在于,通過所述多個樣本數據集和所述多個預設風險特征項對應的多個WoE訓練多顆孤立樹,以得到數據異常檢測模型的步驟,包括:
從所述多個客戶樣本中有放回抽樣得到多個客戶樣本子集;
孤立樹構建步驟:(1)選擇所述多個客戶樣本子集中的其中一個客戶樣本子集;(2)根據所述多個WoE選擇將其中一個預設風險特征項和相應的取值,(3)對被選擇的客戶樣本子集中的多個客戶樣本進行分裂;(4)重復上述步驟(2)~(4)直至所述孤立樹達到設定的高度限制;
重復執行所述孤立樹構建步驟以得到多棵孤立樹,所述多顆孤立樹組合為所述數據異常檢測模型。
6.如權利要求5所述的數據模型訓練法,其特征在于,還包括:
獲取第二訓練數據集,所述第二訓練數據集包括多個目標客戶樣本的多個目標樣本數據集;
將每個目標樣本數據集輸入到所述數據異常檢測模型中,通過所述數據異常檢測模型輸出每個目標樣本數據集的變異系數;
根據每個目標樣本數據集的變異系數,從所述第二訓練數據集中篩選得到第三訓練數據集,所述第三訓練數據集中的每個目標樣本數據集的異常系數均大于預設閾值;
根據所述第三訓練數據集,對保單核保風險評估模型進行訓練。
7.如權利要求6所述的數據模型訓練方法,其特征在于,每個目標樣本數據集的變異系數通過以下公式計算得到:
c(n)=2H(n-1)-(2(n-1)/n)
H(k)=In(k)+ξ
x用于標識n個目標樣本數據集中的其中一個目標樣本數據集;s(x,n)為目標樣本數據集x在由n個目標樣本數據集構成的孤立樹得到的變異系數;c(n)為目標樣本數據集的個數為n時,孤立樹的平均路徑長度;E(h(x))為相應的目標樣本數據集x在多顆孤立樹的路徑長度均值;h(x)為相應的目標樣本數據集x在各顆孤立樹的路徑長度;k為根節點到葉子節點的路徑長度;ξ為歐拉參數;H(k)為調和數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910665010.X/1.html,轉載請聲明來源鉆瓜專利網。





