[發明專利]一種基于金融時間序列特征的異常交易識別方法,設備及可讀存儲介質有效
| 申請號: | 201810909752.8 | 申請日: | 2018-08-10 |
| 公開(公告)號: | CN109165950B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 李曉穎;王佰玲;王巍;黃俊恒;辛國棟;劉揚 | 申請(專利權)人: | 哈爾濱工業大學(威海) |
| 主分類號: | G06Q20/40 | 分類號: | G06Q20/40 |
| 代理公司: | 山東舜源聯合知識產權代理有限公司 37359 | 代理人: | 張亮 |
| 地址: | 264209 山東省威海市哈*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 金融 時間 序列 特征 異常 交易 識別 方法 設備 可讀 存儲 介質 | ||
1.一種基于金融時間序列特征的異常交易識別方法,其特征在于,方法包括:
步驟一,對輸入的原始金融交易流水數據集,進行數據預處理,提取原始金融交易流水數據集中的清洗數據和關鍵項數據,得到關鍵項數據集合D;
步驟二,構建金融時間序列,基于關鍵項數據集合D構建金融時間序列數據集Dfinput;
步驟三,基于金融時間序列數據集Dfinput,根據確定的傳銷卡號列表文件進行數據標注;將標注好的金融時間序列數據集Train輸入SoftSeq2Seq-Attention神經網絡模型,進行模型訓練和金融時間序列特征提取;
步驟四,對賬號進行檢測識別,識別金融交易流水信息,并構建待檢測金融交易流水信息數據集根據步驟一對待檢測金融交易流水信息數據集進行預處理操作,得到預處理操作結果關鍵項數據集合Dtest,然后由步驟二構建金融時間序列數據集
將中數據輸入到訓練好的SoftSeq2Seq-Attention神經網絡模型中,提取金融時間序列特征向量集合
基于Decoder中間層金融時間序列特征向量,經過linear線性層和softmax層進行金融交易賬號的分類識別,得到賬號ci對應的金融時間交易序列集合的分類結果概率集合,然后根據賬號檢測識別方法進行賬號ci最終分類結果的計算,以得到對應賬號為傳銷賬號的異常概率值。
2.根據權利要求1所述的基于金融時間序列特征的異常交易識別方法,其特征在于,
在步驟一中,提取交易流水數據中的交易卡號、交易日期、交易金額、摘要說明,作為特征提取工作的基礎數據;交易卡號作為金融賬號的標識ID用于傳銷賬號識別;
將交易日期按“YYYYMMDDhhmmss”統一格式化處理,交易金額結合收付標志位,收付標志為“進”則金額為正數,收付標志為“出”則金額為負數;格式歸一化處理后,清洗掉交易金額絕對值小于50的交易流水數據,以及交易卡號為空的交易流水數據。
3.根據權利要求2所述的基于金融時間序列特征的異常交易識別方法,其特征在于,
步驟二還包括:基于關鍵項數據的交易流水信息,構建金融時間序列的方法如下:
1)、統計交易流水信息中的交易卡號集合C={c1,c2,...,cn},其中n為卡號總數;
2)、以卡號ci為鍵值key,即金融賬號標識ID,ci∈C,將ci對應的全部交易流水信息構建列表li,li為ci對應的value內容值,li[m]=[ci,timem,moneym,summarym],這里m僅表示列表li中某個元素的下標;得到鍵值對數據集合D={d1,d2,...,dn},若di∈D,則di=(ci,li);
3)、對所有的di∈D,將其li列表按照交易日期這項內容進行升序排序,即將交易流水列表按時間先后順序重新排序,將li更新為排序結果列表;
4)、對所有的di∈D,di=(ci,li),利用其li[m]=[ci,timem,moneym,summarym]內容,構建初始輸入向量其中,moneym為原交易金額值;tivecm為timem對應的向量表示;summvecm為交易摘要項summarym對應向量表示;tivecm的生成方法為,基于D中全部交易時間集合調用sklearn的HashingVectorizer方法對其進行向量化表示,向量維度取5維;summvecm的生成方法為,基于D中全部交易摘要集合調用sklearn的HashingVectorizer方法對其進行向量化表示,向量維度取10維;則由16維初始特征向量構成;
5)、由步驟4)方法,得到數據集Dinput,有輸入向量m表示列表中某個元素的下標;
6)、采用滑窗法采樣生成定長金融時間序列數據,同時可起到擴充數據量的作用;清洗掉Dinput中長度小于15的鍵值對數據;
采用長度為50,間隔步長為25的滑窗由前向后對進行數據分割;若最后一個滑窗包含的數據長度不足50但大于15,則進行補0操作;否則,舍棄此部分數據;
生成有即屬于賬號ci的時間序列數據集合;
一條時間序列數據內容為標識ID由卡號ci以及編碼j共同組成;
7)、由步驟6)可得,j=1,2,...,k,這里m僅表示列表中某個元素的下標;設i=1,2,...,n,則Dfinput為所構建的金融時間序列數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(威海),未經哈爾濱工業大學(威海)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810909752.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:無卡信用支付方法、系統、計算機設備和存儲介質
- 下一篇:數據處理方法和服務器





