[發明專利]一種風控場景下基于遺傳算法的特征衍生方法有效
| 申請號: | 202010833102.7 | 申請日: | 2020-08-18 |
| 公開(公告)號: | CN111967600B | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 陳建;張乾;龍泳先;王月月;劉天欣;沙雨濛;何侃 | 申請(專利權)人: | 北京睿知圖遠科技有限公司 |
| 主分類號: | G06N3/12 | 分類號: | G06N3/12;G06N20/00;G06K9/62;G06Q10/06 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 姚遠方 |
| 地址: | 101500 北京市密云區鼓樓東大街3號山水*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 場景 基于 遺傳 算法 特征 衍生 方法 | ||
本發明公開了一種風控場景下基于遺傳算法的特征衍生系統,包括:數據采集模塊,所述數據采集模塊的輸出端連接有遺傳算法特征衍生模塊。涉及數據處理技術領域。該風控場景下基于遺傳算法的特征衍生系統及方法,主要利用遺傳算法自動化地衍生具有業務可解釋性且預測能力較強的特征,顯著提升了最終大數據評分卡模型的分類能力和準確率,極大地降低了人力成本,進而在一定程度上提高了模型開發的效率,通過研究最終得到的衍生特征可以很好地加深對業務的理解,對特征之間的隱式關系有更深刻的認識,使得產生的結構比較理想,能夠滿足人們的實際需求,同時該方法具有高度的靈活性和可擴展性,可以遷移至多種業務場景。
技術領域
本發明涉及數據處理技術領域,具體為一種風控場景下基于遺傳算法的特征衍生系統及方法。
背景技術
風險控制是指風險管理者采取各種措施和方法,消滅或減少風險事件發生的各種可能性,或風險控制者減少風險事件發生時造成的損失,總會有些事情是不能控制的,風險總是存在的,作為管理者會采取各種措施減小風險事件發生的可能性,或者把可能的損失控制在一定的范圍內,以避免在風險事件發生時帶來的難以承擔的損失,風險控制的四種基本方法是:風險回避、損失控制、風險轉移和風險保留。
在風控業務中需要最終的模型擁有很好地可解釋性,因此邏輯斯蒂回歸一直是大數據評分模型中的主流,然而眾所周知機器學習的性能很大程度上取決于特征的質量,并且邏輯斯蒂回歸模型無法學習到特征之間的非線性關系,這一過程依賴于大量的專業知識,門檻很高并且耗時耗力,現有技術中,雖然已經產生了很多應用廣泛的方法論,例如多個特征做笛卡爾積、著名的“RFMVT”原則、基于統計量衍生新特征等等,但是基于原始特征很難產生令人滿意的結果。
發明內容
(一)解決的技術問題
針對現有技術的不足,本發明提供了一種風控場景下基于遺傳算法的特征衍生系統及方法,解決了風控中基于原始特征衍生門檻很高并且耗時耗力,很難產生令人滿意的結果的問題。
(二)技術方案
為實現以上目的,本發明通過以下技術方案予以實現:一種風控場景下基于遺傳算法的特征衍生系統,包括:數據采集模塊,所述數據采集模塊的輸出端連接有遺傳算法特征衍生模塊,所述遺傳算法特征衍生模塊的輸出端連接有特征重要度篩選模塊,所述數據采集模塊的輸出端連接有服務器。
一種風控場景下基于遺傳算法的特征衍生方法,包括以下步驟:
S1、通過所述數據采集模塊采集用戶的行為數據,并作為原始特征X和標簽Y,分別發送至服務器和遺傳算法特征衍生模塊中;
S2、原始特征X和標簽Y進入到所述遺傳算法特征衍生模塊之后,隨機組合大量的原始特征,作為初代總體,然后經過變量篩選出排名靠前的衍生特征進行交叉變異,構成子代,并多次迭代,最終選取所有表現優異的衍生特征,然后輸送至特征重要度篩選模塊中進行下一步操作;
S3、所述特征重要度篩選模塊將原始特征和衍生特征一起輸入到隨機森林中去,進行特征重要度排序,選取特征重要性較高且具有業務可解釋性的衍生變量加入最終的入模特征列表中。
進一步地,所述S1中在采集的用戶數據時通常存在大量的缺失,可以結合具體的業務場景,使用0、-1等特殊值填充。
進一步地,所述S2中遺傳算法迭代之前,需要預先設置幾個重要的超參數,且分別為隨機初始化的衍生特征個數、遺傳算法迭代輪數以及進入下一代的衍生特征的最低排名。
進一步地,所述S2中隨機初始化的衍生特征個數可以設置為原始特征的整數倍,通常取2-4倍,遺傳算法迭代輪數可以取10-20之間的整數,進入下一代的衍生特征的最低排名通常可以取10的倍數,如10、20等。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京睿知圖遠科技有限公司,未經北京睿知圖遠科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010833102.7/2.html,轉載請聲明來源鉆瓜專利網。





