[發明專利]基于樣本聚類的欺詐交易檢測方法在審
| 申請號: | 201610107473.0 | 申請日: | 2016-02-26 |
| 公開(公告)號: | CN105787743A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 趙金濤;曾利彬;侯玲;邱雪濤;葛鳴銘 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 方世棟;付曼 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 欺詐 交易 檢測 方法 | ||
技術領域
本發明涉及欺詐交易檢測方法,更具體地,涉及基于樣本聚類的欺詐交易檢測方 法。
背景技術
目前,隨著計算機和網絡應用的日益廣泛以及不同領域的業務種類的日益豐富, 針對安全性信息交互過程(即對安全性要求較高的信息交互過程,例如金融領域中的支付 交易過程)中的欺詐交易進行檢測變的越來越重要。
在現有的技術方案中,通常將歷史交易數據直接作為訓練數據對機器學習模型進 行訓練以使其能夠隨后檢測欺詐交易。
然而,上述現有的技術方案存在如下問題:由于歷史交易數據通常具有嚴重的數 據不平衡性(即非正常交易的比率過低,例如小于0.1BP(BP指萬分之一)),由此,訓練數據 的嚴重不平衡性會導致機器學習模型的分類判別總是傾向于多數類,即模型總是傾向將交 易判別為正常交易,由此導致針對欺詐交易的檢測操作的準確性較低。
因此,存在如下需求:提供能夠更準確的識別欺詐交易的基于樣本聚類的欺詐交 易檢測方法。
發明內容
為了解決上述現有技術方案所存在的問題,本發明提出了能夠更準確的識別欺詐 交易的基于樣本聚類的欺詐交易檢測方法。
本發明的目的是通過以下技術方案實現的:
一種基于樣本聚類的欺詐交易檢測方法,所述基于樣本聚類的欺詐交易檢測方法包 括:
(A1)基于樣本聚類算法采集并構建訓練樣本組和測試樣本組;
(A2)利用所述訓練樣本組和測試樣本組構建并測試多個神經網絡模型;
(A3)基于所述經訓練和檢測的多個神經網絡模型檢測潛在的欺詐交易。
在上面所公開的方案中,優選地,所述步驟(A1)進一步包括:(1)從數據庫中提取 同一時間段T1內的欺詐交易和正常交易數據樣本作為原始訓練數據樣本集合,并從所述數 據庫中提取所述時間段T1之后一段時間T2的欺詐交易和正常交易數據作為原始測試數據 樣本集合,其中,所述原始訓練數據樣本集合和原始測試數據樣本集合中的每個樣本是數 據表中的由多個字段構成的一個紀錄,;(2)根據預定的判定規則確定所述原始訓練數據樣 本集合和原始測試數據樣本集合中的每個樣本是否屬于正常交易,由此從所述原始訓練數 據樣本集合和原始測試數據樣本集合中篩選和去除屬于非正常交易的樣本。
在上面所公開的方案中,優選地,所述步驟(A1)進一步包括:將已去除屬于非正常交易的樣本的原始訓練數據樣本集合中的樣本進行聚類,以獲得經聚類的訓練數據樣本集合,其由n個分組構成,被表示為;,其中n≥1。
在上面所公開的方案中,優選地,所述步驟(A1)進一步包括:(1)將篩選出的屬于非正常交易的樣本加入經聚類的訓練數據樣本集合中的每個分組中,由此構成由n個擴展分組構成的擴展訓練數據樣本集合,被表示為;,其中n≥1;(2)針對每個擴展分組,根據每個樣本中的特定字段中的字符型變量的值對該擴展分組中的樣本分組以獲得多個子分組,其中,每個子分組所包含的樣本的數量相等或實質上相等;(3)針對每個擴展分組,根據下式計算該擴展分組中的每個子分組的WEO值:WOE=log(子分組內目標樣本占比/子分組內非目標樣本占比),其中,子分組內目標樣本占比=子分組內目標樣本數/整體目標樣本數,子分組內非目標樣本占比=子分組內非目標樣本數/整體非目標樣本數,隨后用計算出的WEO值替換該子分組中的每個樣本的所述特定字段的值,以生成由n個分組構成最終的訓練樣本組,其被表示為;;
在上面所公開的方案中,優選地,所述步驟(A1)進一步包括:對已去除屬于非正常交易 的樣本的原始測試數據樣本集合執行與前述針對已去除屬于非正常交易的樣本的原始訓 練數據樣本集合的聚類、擴展以及WEO值計算和替換操作相似的聚類、擴展以及WEO值計算 和替換操作,以獲得最終的測試樣本組。
在上面所公開的方案中,優選地,所述步驟(A2)進一步包括:(1)分別使用對所述訓練樣本組對預定的神經網絡算法進行訓練,以構建多個神經網絡模型;(2)使用所述測試樣本組對每個神經網絡模型進行測試,并統計每個神經網絡模型的檢測準確率,如果某個小于閾值,則將該對應的神經網絡模型舍棄,否則將該對應的神經網絡模型作為工作神經網絡模型,其中,假設符合條件的神經網絡模型數量為,則其對應的檢測準確率分別為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610107473.0/2.html,轉載請聲明來源鉆瓜專利網。





