[發明專利]數據模型訓練方法、系統及計算機設備在審
| 申請號: | 201910665010.X | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110517154A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 王進;劉行行 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06Q40/08 | 分類號: | G06Q40/08;G06K9/62 |
| 代理公司: | 11015 北京英特普羅知識產權代理有限公司 | 代理人: | 林彥之<國際申請>=<國際公布>=<進入 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 特征字段 特征項 預設 訓練數據集 數據異常 特征列 檢測 準確度 數據模型 異常數據 影響數據 有效地 核保 客戶 樣本 孤立 預測 記錄 分析 | ||
本發明實施例提供了一種數據模型訓練方法,包括:獲取第一訓練數據集,所述第一訓練數據集包括多個客戶樣本的多個樣本數據集;將每個樣本數據集中的多個樣本數據記錄到多個預設風險特征項對應的多個風險特征字段中,得到與所述多個風險特征字段對應的多個風險特征列;對每個風險特征字段對應的風險特征列進行分析,得到每個預設風險特征項的WoE;通過所述多個樣本數據集和所述多個預設風險特征項對應的多個WoE訓練多顆孤立樹,以得到數據異常檢測模型。本實施例訓練的數據異常檢測模型可以有效地檢測到保單核保的異常客戶,從而解決部分異常數據影響數據模型的預測準確度的問題。
技術領域
本發明實施例涉及計算機數據處理領域,尤其涉及一種數據模型訓練方法、系統、計算機設備及計算機可讀存儲介質。
背景技術
隨著人們保險意識逐漸增強,商業保險已經成為當前社會保障體系的重要組成部分。根據可參考數據,部分保險機構的保單數量在千萬級別。這些保單在保險系統中生成之后,需要對保單進行核保,以確定保單中的信息是否符合參保要求。現在對保單的核保方式,一般是由人工進行核保。隨著大數據挖的快速發展,用于核保的可參照數據越來越多,業界開始基于大數據進行數據建模并通過數據模型進行保單核保。
然而,鑒于新客戶的可參照數據較少,比如僅限于投保單上的有限數據。對于數據模型來說,數據越多,分析維度越多,則數據模型的預測準確度越高。因此有必要從各個渠道獲取客戶盡可能多個的數據,然而,渠道過多容易造成數據質量較差,例如部分數據存在異常,而該部分異常數據可能會對數據模型的預測準確度影響較大。因此,如何提升數據質量,進而提升數據模型的預測準確度和預測效率,是迫切需要解決的技術問題之一。
發明內容
有鑒于此,本發明實施例的目的是提供一種數據模型訓練方法、系統、計算機設備及計算機可讀存儲介質,可以解決部分異常數據影響數據模型的預測準確度的問題。
為實現上述目的,本發明實施例提供了一種數據模型訓練方法,包括以下步驟:
獲取第一訓練數據集,所述第一訓練數據集包括多個客戶樣本的多個樣本數據集;
將每個樣本數據集中的多個樣本數據記錄到多個預設風險特征項對應的多個風險特征字段中,得到與所述多個風險特征字段對應的多個風險特征列;
對每個風險特征字段對應的風險特征列進行分析,得到每個預設風險特征項的WoE;及
通過所述多個樣本數據集和所述多個預設風險特征項對應的多個WoE訓練多顆孤立樹,以得到數據異常檢測模型。
優選地,獲取第一訓練數據集的步驟,包括:
根據多個預設風險特征項配置目標數據庫的多個風險特征字段,并將每個風險特征字段與多個數據源中的對應字段建立映射關系;
根據所述映射關系,從所述多個數據源中抽取多個客戶樣本的多個原始數據集;及
清洗缺失多個風險特征數據的無效的原始數據集,以從所述多個原始數據集中獲取有效的多個樣本數據集。
優選地,根據所述映射關系,從所述多個數據源中抽取多個客戶樣本的多個原始數據集的步驟,包括:
當同一客戶樣本的同一風險特征字段對應有多個數據源中的多個風險特征數據時,根據各個數據源的預設權重系數,選擇權重系數最高的數據源對應的風險特征數據。
優選地,計算每個預設風險特征項的WoE的公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910665010.X/2.html,轉載請聲明來源鉆瓜專利網。





