[發(fā)明專利]一種基于隨機(jī)森林算法的電子商務(wù)網(wǎng)站欺詐用戶識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201310722134.X | 申請日: | 2013-12-24 |
| 公開(公告)號: | CN103678659A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 李莉;鄭一曼;蔣巧娜;黃建鵬 | 申請(專利權(quán))人: | 焦點(diǎn)科技股份有限公司;南京理工大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 南京知識律師事務(wù)所 32207 | 代理人: | 張?zhí)K沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 隨機(jī) 森林 算法 電子商務(wù) 網(wǎng)站 欺詐 用戶 識別 方法 系統(tǒng) | ||
1.一種基于隨機(jī)森林算法的電子商務(wù)網(wǎng)站欺詐用戶識別系統(tǒng),其特征在于,該系統(tǒng)包括以下模塊:
電子商務(wù)網(wǎng)站用戶數(shù)據(jù)處理模塊:將電子商務(wù)網(wǎng)站信息服務(wù)系統(tǒng)收集的用戶數(shù)據(jù),包括用戶基本信息和用戶行為數(shù)據(jù)進(jìn)行預(yù)處理,消除不完整的,雜亂的“臟”數(shù)據(jù),使之成為能夠被電子商務(wù)網(wǎng)站用戶數(shù)據(jù)分析模塊使用的數(shù)據(jù);
電子商務(wù)網(wǎng)站用戶數(shù)據(jù)存儲(chǔ)模塊:將處理完成的數(shù)據(jù)存儲(chǔ)到相應(yīng)的存儲(chǔ)單元,以方便數(shù)據(jù)分析模塊進(jìn)行數(shù)據(jù)抽取;
電子商務(wù)網(wǎng)站用戶數(shù)據(jù)分析模塊:從電子商務(wù)網(wǎng)站用戶數(shù)據(jù)存儲(chǔ)模塊中抽取單位時(shí)間內(nèi)的用戶數(shù)據(jù),使用構(gòu)建的最優(yōu)隨機(jī)森林用戶分類模型對用戶進(jìn)行分類,評判分類結(jié)果的覆蓋率和準(zhǔn)確率,將超過閾值的分類結(jié)果輸出;
結(jié)果展示模塊:將數(shù)據(jù)分析的結(jié)果顯示于系統(tǒng)管理員終端顯示器界面。
2.根據(jù)權(quán)利要求1所述的電子商務(wù)網(wǎng)站欺詐用戶識別系統(tǒng),其特征在于:所述最優(yōu)隨機(jī)森林用戶分類模型,包括:
預(yù)處理單元:從信息系統(tǒng)服務(wù)器獲取用戶歷史分類數(shù)據(jù),將用戶歷史分類數(shù)據(jù)進(jìn)行預(yù)處理,消除無用的、不完整的數(shù)據(jù),使其成為能夠被隨機(jī)森林算法所識別的數(shù)據(jù)形式;
存儲(chǔ)單元:將處理完成的數(shù)據(jù)按照預(yù)設(shè)比例分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,存入相應(yīng)存儲(chǔ)單元中;
分類單元:讀取訓(xùn)練數(shù)據(jù)集,使用隨機(jī)森林算法進(jìn)行分類;
確定單元:讀取測試數(shù)據(jù)集,使用已構(gòu)建的隨機(jī)森林分類模型進(jìn)行模型檢測,查看分類準(zhǔn)確率和覆蓋率,若準(zhǔn)確率和覆蓋率均較低,則重新構(gòu)建分類模型;若準(zhǔn)確率和覆蓋率均超過閾值,則確定為最優(yōu)分類模型。
保存單元:將最優(yōu)分類模型保存在用戶數(shù)據(jù)分析模塊中,以便進(jìn)行新數(shù)據(jù)的分類。
3.根據(jù)權(quán)利要求2所述的電子商務(wù)網(wǎng)站欺詐用戶識別系統(tǒng),其特征在于:所述分類單元在進(jìn)行模型優(yōu)化的過程中,隨機(jī)森林算法會(huì)給出變量重要性評分:設(shè)原始樣本含量為N,表示各樣本的變量為x1,x2,...,xm;應(yīng)用bootstrap法有放回地隨機(jī)抽取b個(gè)新的自助樣本,并由此形成b個(gè)分類樹,每次未被抽到的樣本則組成b個(gè)袋外數(shù)據(jù);袋外數(shù)據(jù)作為測試樣本用來評估各個(gè)變量在分類中的重要性,根據(jù)變量重要性評分,篩選出重要的分類變量,進(jìn)一步改進(jìn)分類模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于焦點(diǎn)科技股份有限公司;南京理工大學(xué),未經(jīng)焦點(diǎn)科技股份有限公司;南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310722134.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:用于內(nèi)夾緊的工件傳送裝置
- 下一篇:文檔匹配方法和文檔匹配裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲(chǔ)器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲(chǔ)介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備





