[發明專利]基于決策樹的反洗錢方法及系統在審
| 申請號: | 202011236714.4 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112329862A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 張玉娜;范淵;黃進 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q40/02 |
| 代理公司: | 杭州華進聯浙知識產權代理有限公司 33250 | 代理人: | 龍偉 |
| 地址: | 310051 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 決策樹 洗錢 方法 系統 | ||
1.一種基于決策樹的反洗錢方法,其特征在于,包括以下步驟:
提取賬戶數據并生成數據集,生成的數據集包含非類比屬性和分類屬性,所述非類比屬性包括企業注冊資金、月流動次數、月流動總額注冊資金比、月流動規律度、月流動額變異度、往來賬戶相關性,所述分類屬性為是否涉嫌洗錢;
基于分類預測算法訓練數據集構建決策樹;
對構建的決策樹進行修剪,剪去決策樹的冗余分枝,同時對決策樹模型進行評估,對其分類預測的準確性進行判斷,準確性達到要求,則修剪后的決策樹模型確定。
2.根據權利要求1所述的基于決策樹的反洗錢方法,其特征在于,所述基于分類預測算法訓練數據集構建決策樹的方法具體包括:
運用分類預測算法計算數據集劃分前的熵值;
運用分類預測算法計算數據集按照非類比屬性劃分后的熵值;
運用分類預測算法計算數據集按照非類比屬性劃分前與劃分后的信息增益值;
比較各信息增益值之間的大小,取信息增益值最大的非類別屬性作為根節點對數據集進行劃分,分類訓練集被分成若干個子集,即在決策樹根部生出若干個分枝;
運用分類預測算法計算每一個分支的信息增益,得到各個非類別屬性的取值與是否涉嫌洗錢之間關系的樹狀模型。
3.根據權利要求2所述的基于決策樹的反洗錢方法,其特征在于,所述運用分類預測算法計算數據集劃分前的熵值的計算式為:
式中,Y和N為分類屬性的兩個不同的離散屬性值,S為數據集中全部的記錄數,SY和SN分別為分類屬性值為Y和N的記錄數。
4.根據權利要求2所述的基于決策樹的反洗錢方法,其特征在于,所述運用分類預測算法計算數據集按照非類比屬性劃分后的熵值的方法包括:將數據集按照非類比屬性劃分成子集,分別計算各個子集的熵值,對所有子集的熵值加權平均,得到數據集按照屬性劃分后的總熵值。
5.根據權利要求4所述的基于決策樹的反洗錢方法,其特征在于,設定非類比屬性企業注冊資金、月流動次數、月流動總額注冊資金比、月流動規律度、月流動額變異度、往來賬戶相關性分別為A1、A2、A3、A4、A5、A6;
運用分類預測算法計算數據集按照非類比屬性A6劃分后的熵值的具體步驟為:設定非類別屬性A6的離散型屬性值為“高”、“中”、“低”,將數據集按照屬性A6劃分成三個子集{S高}、{S中}、{S低},分別計算三個子集{S高}、{S中}、{S低}的熵值,計算式為:
式中,S高、S中、S低分別為子集{S高}、{S中}、{S低}的記錄數,SY高、SN高、SY中、SN中、SY低、SN低為分類屬性值“Y”和“N”的記錄數,
再對三個子集{S高}、{S中}、{S低}的熵值加權平均,得到數據集按照屬性A6劃分后的總熵值:
6.根據權利要求2所述的基于決策樹的反洗錢方法,其特征在于,所述運用分類預測算法計算數據集按照非類比屬性劃分前與劃分后的信息增益值,設定非類比屬性為Aj(j=1、2、3、4、5、6),計算式為:
Gain(Aj)=E(SY,SN)-E(Aj)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011236714.4/1.html,轉載請聲明來源鉆瓜專利網。





