[發明專利]基于自動化特征工程的反欺詐方法及系統在審
| 申請號: | 202110479370.8 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113139818A | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 褚陽;董肖凱 | 申請(專利權)人: | 蘇寧金融科技(南京)有限公司 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06K9/62 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 盛安平 |
| 地址: | 211800 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自動化 特征 工程 欺詐 方法 系統 | ||
本發明公開一種基于自動化特征工程的反欺詐方法及系統,通過自動化特征工程能夠快速、高效、規范化的對特征進行擴增。該方法包括:獲取交易數據集得到交易記錄特征向量及欺詐結果向量,構建原始字段特征的特征集合F0;基于預設的轉換函數對特征集合F0中的原始字段特征進行線性計算得到特征集合Fa;計算當前節點的特征集合Fa中每個新特征分別作為結構樹劃分屬性的信息增益gf,選擇最大的信息增益gf對應的特征f作為劃分屬性,將交易數據集劃分成左右兩部分子樹得到結構樹;若特征f屬于新特征則添加入結構樹當前節點的特征集合Fa中,同時將特征f及其構造所用的轉換函數合并入特征集合Fs;利用特征集合Fs及特征集合Fa作為訓練集,訓練反欺詐模型。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于自動化特征工程的反欺詐方法及系統。
背景技術
互聯網金融欺詐正導致諸多社會經濟問題,網絡支付是互聯網金融中的典型模式之一,此模式中的欺詐交易也是互聯網金融欺詐的主要形式之一。通過構建基于機器學習的欺詐檢測模型來識別欺詐交易的方法已成為網絡支付反欺詐領域的主流思路。在構建欺詐檢測模型的過程中,特征工程是最為關鍵的一步,特征的質量將直接影響模型的性能,通常這也是最為耗時且對相關領域的專業知識要求最高的步驟。現有網絡支付欺詐檢測模型在特征工程上主要是領域專家基于業務知識以手動構造的形式來開展,而在網絡支付模式下欺詐場景眾多,不同場景下的特征構造流程不盡相同,人工特征構建方法已不能滿足與日俱增的反欺詐需求。
發明內容
本發明的目的在于提供一種基于自動化特征工程的反欺詐方法及系統,通過自動化特征工程能夠快速、高效、規范化的對特征進行擴增,從而提升反欺詐模型的訓練精度,確保反欺詐模型識別結果的準確性。
為了實現上述目的,本發明的第一方面提供一種基于自動化特征工程的反欺詐方法,包括:
獲取交易數據集,處理后得到交易記錄特征向量及欺詐結果向量,并構建原始字段特征的特征集合F0;
在構建結構樹的當前節點過程中,基于預設的轉換函數對特征集合F0中的原始字段特征進行線性計算得到特征集合Fa,所述特征集合Fa包括線性擴展的新特征r及所述特征集合F0中的原始字段特征;
計算所述當前節點的所述特征集合Fa中每個新特征分別作為結構樹劃分屬性的信息增益gf,選擇最大的信息增益gf對應的特征f作為劃分屬性,將交易數據集劃分成左右兩部分子樹得到結構樹;
若特征f屬于新特征則添加入結構樹當前節點的特征集合Fa中,同時將特征f及其構造所用的轉換函數合并入特征集合Fs;
利用結構樹葉子節點的所述特征集合Fs及所述特征集合Fa作為訓練集,訓練用于識別欺詐交易的反欺詐模型。
優選地,還包括:
分別進入左右兩部分子樹,判斷當前節點中交易數據集樣本數是否低于設定的最小閾值T,以及判斷交易數據集的純度是否高于設定的閾值G;
若前節點中交易數據集樣本數低于設定的最小閾值T,且交易數據集的純度高于設定的閾值G則到達葉子節點,結構樹構建完畢;
若前節點中交易數據集樣本數未低于設定的最小閾值T,和/或,交易數據集的純度未高于設定的閾值G則重復構造下一節點的特征集合Fs及對應的所述特征集合Fa,直至到達葉子節點結構樹構建完畢。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧金融科技(南京)有限公司,未經蘇寧金融科技(南京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110479370.8/2.html,轉載請聲明來源鉆瓜專利網。





