[發明專利]一種風控場景下基于遺傳算法的特征衍生方法有效
| 申請號: | 202010833102.7 | 申請日: | 2020-08-18 |
| 公開(公告)號: | CN111967600B | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 陳建;張乾;龍泳先;王月月;劉天欣;沙雨濛;何侃 | 申請(專利權)人: | 北京睿知圖遠科技有限公司 |
| 主分類號: | G06N3/12 | 分類號: | G06N3/12;G06N20/00;G06K9/62;G06Q10/06 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 姚遠方 |
| 地址: | 101500 北京市密云區鼓樓東大街3號山水*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 場景 基于 遺傳 算法 特征 衍生 方法 | ||
1.一種風控場景下基于遺傳算法的特征衍生方法,其特征在于,包括以下步驟:
S1、通過數據采集模塊采集用戶的行為數據,并作為原始特征X和標簽Y,分別發送至服務器和遺傳算法特征衍生模塊中;
S2、原始特征X和標簽Y進入到所述遺傳算法特征衍生模塊之后,隨機組合大量的原始特征,作為初代總體,然后經過變量篩選出排名靠前的衍生特征進行交叉變異,構成子代,并多次迭代,最終選取所有表現優異的衍生特征,然后輸送至特征重要度篩選模塊中進行下一步操作,所述S2中隨機初始化的衍生特征個數設置為原始特征的整數倍,取2-4倍,遺傳算法迭代輪數取10-20之間的整數,進入下一代的衍生特征的最低排名取10的倍數,所述S2中為了防止產生的衍生特征過于復雜喪失業務可解釋性且過擬合加重,提前指定遺傳算法迭代過程中的葉子節點個數K,即最多K個特征進行組合形成新的衍生特征,同時限定特征之間的組合方式,對于連續型變量之間,進行加減乘除以及log、exp常見函數變換,對于離散型變量之間,進行與、或、異或等邏輯運算;
S3、所述特征重要度篩選模塊將原始特征和衍生特征一起輸入到隨機森林中去,進行特征重要度排序,選取特征重要性較高且具有業務可解釋性的衍生變量加入最終的入模特征列表中,所述S1中在采集的用戶數據時存在大量的缺失,結合具體的業務場景,使用0、-1特殊值填充,所述S2中遺傳算法迭代之前,需要預先設置幾個重要的超參數,且分別為隨機初始化的衍生特征個數、遺傳算法迭代輪數以及進入下一代的衍生特征的最低排名,所述S2中遺傳算法對衍生特征的篩選方式也極為重要,計算每個衍生特征與標簽的線性相關程度即皮爾森系數、計算每個衍生特征對目標的擬合優度即R2系數,使用Fisher準則,所述S2中遺傳算法迭代過程中篩選方式都是單特征擬合標簽,可能會導致衍生特征之間相關性太高,因此加入線性相關度篩選,計算衍生特征之間的余弦相似度。
2.根據權利要求1所述的一種風控場景下基于遺傳算法的特征衍生方法,其特征在于:所述S3中隨機森林模型進行特征重要度排序會自然地將相關程度過高的變量重要度收縮到零,可以非常直觀地比較原始特征與衍生特征的預測能力強弱,結合業務需求選取具有商業價值和可解釋性的衍生特征加入最終的入模特征列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京睿知圖遠科技有限公司,未經北京睿知圖遠科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010833102.7/1.html,轉載請聲明來源鉆瓜專利網。





