[發(fā)明專利]基于Spark的校園卡租借行為檢測方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011553092.8 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112667709B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設計)人: | 于磊磊;李永在;喬禹 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06F16/25;G06F16/22;G06F16/27;G06K9/62;G06Q50/20 |
| 代理公司: | 濟南圣達知識產(chǎn)權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark 校園卡 租借 行為 檢測 方法 系統(tǒng) | ||
1.基于Spark的校園卡租借行為檢測方法,其特征是,包括:
獲取用戶對校園卡的使用數(shù)據(jù),將獲取的數(shù)據(jù)作為待檢測數(shù)據(jù);
獲取經(jīng)過人工篩選的標記為租借的用戶對校園卡的使用數(shù)據(jù),將獲取的數(shù)據(jù)作為標定數(shù)據(jù);將待檢測數(shù)據(jù)轉化為待檢測行為數(shù)據(jù)集,將標定數(shù)據(jù)轉化為標定行為數(shù)據(jù)集;
分別對待檢測行為數(shù)據(jù)集和標定行為數(shù)據(jù)集中的類別特征進行量化處理;分別對待檢測行為數(shù)據(jù)集和標定行為數(shù)據(jù)集中的所有特征進行標準化處理;
采用Spark引擎,并行計算標定行為數(shù)據(jù)集中各個特征的權重;
采用Spark引擎,并行加權重計算待檢測行為數(shù)據(jù)與標定行為數(shù)據(jù)集中所有數(shù)據(jù)之間的距離;
按照待檢測行為數(shù)據(jù)與標定行為數(shù)據(jù)之間距離由小到大進行排序,選擇前K個標定行為數(shù)據(jù)進行高斯權重加權投票,得到待檢測行為數(shù)據(jù)的類別;
按照待檢測行為數(shù)據(jù)與標定行為數(shù)據(jù)之間距離由小到大進行排序,選擇前K個標定行為數(shù)據(jù)進行高斯權重加權投票,得到待檢測行為數(shù)據(jù)的類別;具體步驟包括:
基于K-D樹的無類別最近鄰集合快速獲取算法,快速獲取待檢測行為數(shù)據(jù)與標定行為數(shù)據(jù)集的前K個最近鄰數(shù)據(jù);
根據(jù)待檢測行為數(shù)據(jù)與K個標定行為數(shù)據(jù)的距離,對K個標定行為數(shù)據(jù)采用高斯函數(shù)逐個加權;
根據(jù)K個標定行為數(shù)據(jù)的權重和類別標記進行投票選舉;
所述基于K-D樹的無類別最近鄰集合快速獲取算法;還包括:
第一步,建立K-DTree:K-D樹;U:待檢測數(shù)據(jù);K:最近鄰數(shù)量;D:回溯閾值;建立輸出變量Node[h]:鄰居節(jié)點集;
第二步,通過二叉樹搜索,在K-D Tree上找到U的最近鄰點N;如果N的左右子樹空間中存在比N更近的樣本節(jié)點N*,則停止本輪搜索,將N*加入Node[h],否則將N加入Node[h];
第三步,向上回溯,設置N為N的父樣本節(jié)點,重復第二步h輪,直到回溯深度達到給定閾值D;
第四步,輸出Node[h],算法結束;
所述采用高斯函數(shù)加權,即采用高斯函數(shù)對標定行為數(shù)據(jù)進行加權,對于第i個標定行為數(shù)據(jù)Ni,其計算如下所示:
其中,di為鄰居樣本Ni與待分類樣本的距離,考慮投票權重的計算,設置a=1,b=0,c設置為可調參數(shù);
所述投票選舉,即通過加權重的類別投票選舉待檢測行為數(shù)據(jù)的類別,投票選舉計算如下:
其中,
其中,K為鄰居數(shù)量,L為類別數(shù)量,Cj為第j個類別,fij為類別歸屬標識。
2.如權利要求1所述的基于Spark的校園卡租借行為檢測方法,其特征是,
將待檢測數(shù)據(jù)轉化為待檢測行為數(shù)據(jù)集;具體步驟包括:
待檢測數(shù)據(jù),包括:賬號、學號、姓名、性別、學院、身份類型、交易金額、交易商戶和交易時間;
對待檢測數(shù)據(jù)進行特征提取,得到待檢測數(shù)據(jù)特征;所述待檢測數(shù)據(jù)特征,包括:性別、身份、是否畢業(yè)班、總消費金額、總消費次數(shù)、餐飲消費金額、洗浴消費金額、洗浴消費占比、健身消費占比、是否有學習相關技術以及是否有醫(yī)療相關記錄;
將待檢測數(shù)據(jù)特征按照用戶編號進行存儲,得到待檢測行為數(shù)據(jù)集。
3.如權利要求1所述的基于Spark的校園卡租借行為檢測方法,其特征是,
將標定數(shù)據(jù)轉化為標定行為數(shù)據(jù)集;具體步驟包括:
標定數(shù)據(jù),包括:賬號、學號、姓名、性別、學院、身份類型、交易金額、交易商戶、交易時間和是否存在租借行為的標簽;
對標定數(shù)據(jù)進行特征提取,得到標定數(shù)據(jù)特征;所述標定數(shù)據(jù)特征,包括:性別、身份、是否畢業(yè)班、總消費金額、總消費次數(shù)、餐飲消費金額、洗浴消費金額、洗浴消費占比、健身消費占比、是否有學習相關技術、是否有醫(yī)療相關記錄和是否存在租借行為的標簽;
將標定數(shù)據(jù)特征按照編號進行存儲,得到標定行為數(shù)據(jù)集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經(jīng)山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011553092.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





