[發明專利]一種應用邏輯回歸建模的市民信用積分評估方法在審
| 申請號: | 202010568798.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111724175A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 吳福全;朱全日;張小花;左楊;劉爽 | 申請(專利權)人: | 安徽迪科數金科技有限公司 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06Q30/06;G06Q40/02;G06N20/00 |
| 代理公司: | 合肥正則元起專利代理事務所(普通合伙) 34160 | 代理人: | 韓立峰 |
| 地址: | 230088 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應用 邏輯 回歸 建模 市民 信用 積分 評估 方法 | ||
1.一種應用邏輯回歸建模的市民信用積分評估方法,其特征在于,該方法具體包括下述步驟:
步驟一:獲取到自變量數據,自變量數據包括:政務數據和銀行數據;
其中,政務數據包括:身份特征、消費能力、信用歷史、資質榮譽;
其中,銀行數據包括資產信息,資產信息包括年收入、是否有自有住宅;
步驟二:獲取到應變量數據y,具體包括好客戶和壞客戶,逾期超過60天的客戶為壞客戶、未逾期的為好客戶;
步驟三:設銀行側稱為guest,政務側稱為host,其中政務側包括若干個host,具體包括政務網、社保局、公積金中心;并且在政務側搭建一個第三方稱為arbiter;
步驟四:進行數據分析,具體為:
步驟1):首先對guest和host兩方樣本id取交集,找到相同的用戶,用這一批用戶作為建模樣本;
步驟2):補缺,填充缺失值,guest和host分別在本地進行;
步驟3):分箱及計算每個特征的woe和IV值;
S3.1:分箱采用等頻分箱,具體為:將每個變量所有的特征值劃分到n個箱子中,使得每個箱子的量相等,從而得到每個箱子的分割點;
S3.2:guest和host分別在本地對各自所有的連續型變量進行等頻分箱;
S3.3:guest對y進行Paillier加密,并且將加密后的y發送給host;
S3.4:guest計算本地的IV值:計算所有特征分箱后各個組別的好、壞樣本數,比如得到如下格式:result_sum={'x1':[[0,0],[2,1],[0,0],[1,0]],'x2':[[0,0],[0,0],[0,0],[0,0],[1,0],[2,1]],'x3':[[0,0],[0,0],[2,1],[1,0]]},接著計算每個特征每個箱子的woe值,公式如下:
woe_i=ln(壞樣本率/好樣本率);
iv_i=(壞樣本率-好樣本率)*woe_i;
變量的IV=該變量所有箱子的iv_i;
S3.5:host方IV值計算:host根據guest發送過來的加密的y,計算所有特征分箱后各個組別的好壞樣本數result_sum,并將該結果發送給guest;
S3.6:guest收到加密的host方的result_sum,首先進行解密,并同理計算woe和IV值,并將host方的woe_i結果發送給host;
S3.7:特征值轉換:guest和host分別將所有特征轉換為該特征值所屬箱子的woe值,將結果值將代替原始的自變量x值作為新的建模自變量;
步驟4):特征選擇,本申請采取的是用IV值進行特征選擇,guest和host雙方設定一個閾值thr,guest將兩方所有特征變量的IV值和閾值thr進行比較,過濾掉IV閾值thr的特征變量,其余的變量用于構建模型;
步驟五:構建模型,采用縱向邏輯回歸聯邦學習方法構建,具體為:
S1:guest首先將標簽y設置為1,-1,x=woe值;
S2:將數據分批,假設分批后結果為batch_info,包括每批數據量大小,以及數據批數;
將分批后結果batch_info發送給Host和Arbiter;
將每批數據的樣本id即index發送給Host;
S3:guest和host都分別初始化模型,即w=隨機產生的0-1之前均勻分布的數,常數項=1;初始化迭代次數=0;
S4:開始循環訓練,當迭代次數設置的最大迭代次數時:
S401:初始化循環批次序號等于0;
根據每批數據序號獲取相應的數據特征;
S402:對分批后的所有數據按照批次進行循環訓練:
S40201:計算梯度;
S40202:計算損失;
S40203:權重更新;
S403:獲取Arbiter發送過來的停止迭代標簽is_converged;
S404:迭代次數=迭代次數+1;
S405:如果獲取到的停止迭代標簽為‘True’,那么就退出大循環;步驟六:進行模型預測;
S601:得到的模型為W=[w0,w1,w2,...,wn];
則預測一個樣本為壞客戶的概率p=1/(1+e^(-W*X)),即:
ln(事件發生比)=ln(p/(1-p))=W*X=w0+w1*x1+w2*x2+...+wn*xn;
S602:將概率轉化成分數且為正整數;
信用分score=參數A+參數B*(WX)=A+B*(w0+w1*x1+...+wn*xn);
S603:進行A、B求解:
設定x=good/bad時的分值為P,則比率為2x的點的分值應該為P-PDO;
代入公式得到:
P=A-Bln(x);
PDO=A-Bln(2x);
將x=5%,P=800,PD0=50;
計算出來A,B代入信用分score中;
信用分score=(A+B*w0)+B*w1*x1+...+B*wn*xn;
式中,A+B*w0為基礎分數,B*wi*xi為每個變量對應分配的分數;
S604:把每個變量對應的分數,分別乘以變量中每個分箱的woe_i,得到每個分箱的評分結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽迪科數金科技有限公司,未經安徽迪科數金科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010568798.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自發電聯網式預設定加注槍
- 下一篇:一種音頻輸出設備的選擇方法及顯示設備





