[發明專利]基于自動化特征工程的在線網絡支付欺詐檢測系統有效
| 申請號: | 202010055739.8 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111275447B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 王成;王昌琪 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06Q20/40 | 分類號: | G06Q20/40;G06Q40/04;G06N20/00 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自動化 特征 工程 在線 網絡 支付 欺詐 檢測 系統 | ||
1.一種基于自動化特征工程的在線網絡支付欺詐檢測系統,其特征在于,包括個人客戶端、商戶端、銀行數據中心,還包括自動化特征工程模塊、欺詐檢測模塊;
用戶與商戶之間通過各自的PC或者移動端在網絡上發生的實時交易數據記錄由銀行數據中心負責接收匯總;銀行數據中心通過二次處理篩選出所需特征字段,將這些原始特征提供給自動化特征工程模塊;
自動化特征工程模塊在在線網絡支付原始特征的基礎上,進行特征構造獲得所有新特征的構造過程集合,提供給欺詐檢測模塊進行異常鑒定;
欺詐檢測模塊,對于自動化特征工程模塊輸出的訓練數據集,根據新特征向量的構造過程集合,構造出新特征,將所有特征和標簽輸入到機器學習模型進行訓練,得到欺詐檢測模型;對于同樣由自動化特征工程模塊輸出的實時測試數據集,也根據新特征的構造過程集合,構造出新特征,將所有特征輸入進欺詐檢測模型進行欺詐預測;欺詐檢測模塊結合判別結果,對正常交易進行放行,對異常交易的用戶提出二次身份認證;后續二次認證成功則重新允許用戶再次進行交易,否則鎖定用戶賬號,拒絕其進行任何交易;
第一部分:
銀行數據中心搜集互聯網金融網絡支付交易記錄,從中通過二次處理即篩選出原始字段,見表1網絡支付交易記錄可利用的原始字段;
表1可利用原始字段
第二個部分:包括數據集、定制化特征構造樹的自動化特征工程模塊;
1.1構建整個數據集D
利用銀行數據中心篩選出的原始字段制作原始數據樣本集合D,D={X,Y},其中
X={x1,x2,…xn},其中xi對應的是第i條交易記錄的各個字段,即一條特征向量,X代表所有交易記錄的特征向量集合;Y={y1,y2,…yn},其中yi對應的是第i條交易記錄是否是欺詐,其取值yi={0,1},0為正常,1為異常,
Y代表所有交易記錄標簽的集合;
X、Y兩者共同組成了整個數據集D,數據集中交易記錄樣本的總數為n;進入1.2進行特征構造;
1.2定制化特征構造樹的自動化特征工程模塊,包括局部特征構造模塊;
定制化的特征構造樹在每個節點處不僅僅在交易記錄的原始特征集合D的基礎上構造新特征,還存在轉換函數的組合,即在構造出來的新特征的基礎上繼續構造特征;這里特征構造樹保留了父節點上構造出的用來劃分數據集的特征,與原始特征組成新的、擴充的特征空間,在此擴充的特征空間上再進行特征構造并選擇劃分數據集的特征;局部特征構造模塊,設計的局部特征構造流程增加了轉換函數的組合功能,擴充了特征空間的搜尋范圍;定制化特征構造樹中對轉換函數權重向量的時效性進行更新;
所述轉換函數:轉換函數及其具體設置操作方法如表2所示,按照其工作域劃分為縱向方式的轉換函數、橫向方式的轉換函數和時間窗口方式的轉換函數:
表2轉換函數設置操作表
所述縱向方式的轉換函數,是作用在單個特征或特征屬性之間的轉換函數,作用于單個列特征進行計算頻率、求平方、開方、sigmod和tanh操作而生成新一列特征,作用在兩個列特征之間作加法、減法、乘法操作而生成新一列特征;
所述橫向方式的轉換函數,是作用在同一個特征的多個不同樣本間的轉換函數,對某個特征作個體累積和群體累積的加法,對時間和交易金額特征作不同交易記錄樣本的差;
所述時間窗口方式的轉換函數,是利用了滑動時間窗口的概念,這對于分析在一段時間內的交易行為特征具有重要的作用,具體地有下列轉換函數:時間窗口內的累積求和、求極值、均值、方差、計數、非重計數和最頻繁;
令O表示轉換函數的集合,W={w1,w2,…,wk}表示轉換函數的權重向量,其中wi代表第i個轉換函數的權重,1≤i≤k,即各個轉換函數被選中的概率,轉換函數的總個數為k;
每個節點處的局部特征構造:
Fo表示數據集中的原始字段的特征集合;
Fa表示當前節點上包含新特征的特征總集合,其既包括原始的特征又包括能夠通過轉換函數新構造出來的并用來劃分數據集的特征;
Fs表示樹中節點處被選擇用來劃分數據集的新特征及其構造過程的集合;
所述局部特征構造模塊,其節點處的局部特征構造流程:
步驟1.2.1,初始化轉換函數集合O中的轉換函數的權值向量W,其中每個wi=1/|W|;初始化每個轉換函數o的最近平均信息增益效用列表lo,列表的長度設為m,其中的每個值的初始值為0,初始化Fa=Fo,表示空集;提供給步驟1.2.2;
步驟1.2.2,在決策樹的某個節點上,根據轉換函數的權值向量W,其中的某轉換函數的權重值越大,其被選中的概率越大,先依概率選中一個轉換函數;若其為一元轉換函數,則在此節點對應的數據集上,從數據集中所有的s個特征中選擇出r個不同的特征,其中r≤s,并且s=|Fa|,即特征集合Fa的大小;在這r個特征上應用此轉換函數,構造出r個新特征;若其為二元轉換函數,則在此節點對應的數據集上,從數據集中所有的s個特征中選擇出r組不同的特征對,在這r組特征對上應用此轉換函數,構造出r個新特征;提供給步驟1.2.3;
步驟1.2.3,對新構造出來的r個特征和節點中原來的特征Fa,分別計算用每個特征作為劃分屬性的信息增益gf,選擇信息增益最大的特征作為劃分屬性,根據特征的具體劃分值將數據集劃分成左右兩部分,并分裂成左右兩部分子樹,將樣本中特征的取值小于具體劃分值的樣本歸并到左子樹中,相對地,另外一部分歸并到右子樹中,它們分別對應左兒子和右兒子節點;若特征為新構造出來的特征,則將特征添加到新構造出來的特征集合Fa當中去,即且將特征及其構造過程并入集合Fs中去;
步驟1.2.4,按照轉換函數權重向量的時效性更新機制更新轉換函數的權重值;
步驟1.2.5,分別進入左兒子和右兒子節點,判斷節點中子數據集樣本數是否低于設定的最小閾值T,或子數據集樣本的純度是否高于設定的閾值G;若是,則到達葉子節點,結束流程,若不是,則重復步驟1.2.2~1.2.4,直至到達葉子節點;當樹構造完畢,則進入步驟1.2.6;
步驟1.2.6,整棵樹構造完畢后,最終得到特征集合Fs中的特征即為由特征構造樹構造出來的新特征及其構造過程,提供給第二部分;
所述步驟1.2.4轉換函數權重向量的時效性更新機制,其具體步驟如下:
步驟1.2.4.1,若當前節點選擇出的轉換函數為o,則根據其構造出所有r個新特征,分別將其作為數據集的劃分屬性,按照以下公式計算得到的平均信息增益go,
其中,代表使用由轉換函數o構造出的第i個新特征fi作為劃分屬性得到的信息增益;
步驟1.2.4.2,根據步驟1.2.4.1得到的平均信息增益go,更新當前轉換函數的最近平均信息增益效用列表;代表轉換函數o的最近m次被選中的平均信息增益效用的列表,m是列表lo的長度,代表使用t時刻選擇的轉換函數o生成的所有新特征,作為劃分屬性得到的平均信息增益效用值;利用go來更新當前轉換函數o的最近平均信息增益效用列表lo,將此平均信息增益go添加到列表lo的末尾,刪除列表lo頭的第一個值,即:
t時刻:
t+1時刻:
其中
步驟1.2.4.3,根據當前轉換函數o的最近平均信息增益效用列表lo和平均信息增益go,計算出當前轉換函數o的獎勵值β,其中,表示列表lo中的中值,表示列表lo中的最大值,公式(2)限定了β∈[0,1]:
步驟1.2.4.4,根據當前轉換函數o的獎勵值β,按照公式(3)更新轉換函數的權值向量,再按照公式(4)進行轉換函數權值向量的歸一化:
其中,wo表示轉換函數o的權值,公式(3)中wo隨著獎勵值β的增加單調增加,也就是說獎勵值越高,轉換函數的權重增加的幅度便會越大,α控制著權重更新的速率;公式(4)中wi表示第i個轉換函數的權值,表示所有轉換函數的權值總和;
第三部分
欺詐檢測模塊包括訓練網絡支付欺詐檢測分類器模型和實時檢測算法模塊,所述實時檢測算法模塊,向分類器模型輸入定制化特征構造樹的自動化特征工程模塊生成網絡支付交易記錄的特征向量,輸出當筆網絡支付交易存在欺詐的可能性概率,通過概率得到判別結果,即交易是否正常;將所有特征輸入進欺詐檢測模型進行欺詐預測;
欺詐檢測模塊結合判別結果,對正常交易進行放行,對異常交易的用戶提出二次身份認證;后續二次認證成功則重新允許用戶再次進行交易,否則鎖定用戶賬號,拒絕其進行任何交易;
所述實時檢測算法模塊,過程為:
步驟2-1,在網絡支付交易記錄的訓練數據集上應用步驟1所示的自動化特征工程方法,由步驟1.2.6中返回獲得所有新特征的構造過程集合;
步驟2-2,利用獲得的新特征的構造過程集合,對訓練數據集中的所有網絡支付交易記錄進行特征構造,為每一條交易記錄都生成新特征向量;
步驟2-3,將訓練集的所有交易記錄數據的新特征、原始特征和標簽輸入進分類器模型進行訓練,得到欺詐檢測模型;
步驟2-4,對新來一條的網絡支付交易記錄數據,利用步驟2-1中獲得的新特征的構造過程集合,先進行特征構造,生成新特征,將原始特征和新特征輸入進欺詐檢測模型,輸出該條交易記錄是欺詐交易的概率;
步驟2-5,重復步驟2-4,實現實時的在線網絡支付交易欺詐檢測。
2.如權利要求1所述的一種基于自動化特征工程的在線網絡支付欺詐檢測系統,其特征在于,所述分類器為RandomForest或XGBoost。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010055739.8/1.html,轉載請聲明來源鉆瓜專利網。





