[發明專利]用于互聯網金融風控的異常數據篩選方法在審
| 申請號: | 202210138272.2 | 申請日: | 2022-02-15 |
| 公開(公告)號: | CN114511399A | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 李開恒;岳鈞;王子凡;趙文宇;趙燦陽;涂俊;王正寧 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 王大剛 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 互聯網 金融 異常 數據 篩選 方法 | ||
1.用于互聯網金融風控的異常數據篩選方法,其特征在于,包括:
S1、獲取訓練數據集,并確定訓練數據集的屬性權重;
S2、建立二叉樹,并將訓練數據集劃分為正常數據和異常數據;
S3、建立基礎模型,導入訓練數據集進行優化訓練,獲取最優的異常數據集;
S4、待篩選數據集根據最優的異常數據集篩選剔除異常數據。
2.根據權利要求1所述的用于互聯網金融風控的異常數據篩選方法,其特征在于,在S1中包括:
S11、訓練數據集D表示為D={(x1,y1),(x2,y2),...,(xn,yn)},訓練數據集D的各個屬性集合記為X={χ1,χ2,...,χk},其中n為數據集數量,k為屬性數量,xi為每條數據,yi為其對應的標簽;
S12、計算X中的屬性權重Wx={wx1,wx2,...,wxk},其中wxk為X中各個屬性χi的基尼指數,基尼值表示為其中V為屬性χi的V個可能的取值,χi對D進行劃分會產生V個分支節點,其中第v個分支節點包含了D中所有在屬性上取值為χi的樣本,記為Dv。
3.根據權利要求2所述的用于互聯網金融風控的異常數據篩選方法,其特征在于,在S2中包括:
S21、建立基于屬性權重的二叉樹集合,根據X的屬性權重選取J個屬性,并以J個屬性中的每個屬性χi建立一顆二叉樹Treet,其屬性權重與Wx中的wxi對應,隨機選擇一個χi中的值作為該二叉樹根節點Roott,該二叉樹Treet的左右子樹按生成,其中MIN(χi)為屬性χi的最小值,MAX(χi)為屬性χi的最大值,filter(*)為篩選函數,q為數據集D中的χi在屬性χi上的值,即將q≤χij的χi放入左子樹,反之放入右子樹,以遞歸的方式完成該二叉樹的建立生成J棵二叉樹,形成基于屬性權重的二叉樹集合F={Tree1,Tree2,...,TreeJ};
S22、D中的每一條數據χi遍歷F中的二叉樹,并計算xi在每個二叉樹的深度h,xi在該棵二叉樹Treej的孤立分數為h×wxk,記為sj;
S23、計算平均孤立分數D中所有數據的孤立分數集合表示Is={γ1,γ2,...,γn};
S24、根據孤立分數集合Is對數據集D進行異常和正常數據集劃分,劃分表示為其中,κ為劃分閾值,孤立分數大于閾值的數據劃分為異常數據,記為異常數據集Ds={(x1,y1),(x2,y2),...(xm,ym)},反之則為正常數據,記為正常數據集Dt={(xm+1,ym+1),(xm+2,ym+2),...(xn,ym)}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210138272.2/1.html,轉載請聲明來源鉆瓜專利網。





