[發明專利]一種基于隨機森林算法的電子商務網站欺詐用戶識別方法及系統在審
| 申請號: | 201310722134.X | 申請日: | 2013-12-24 |
| 公開(公告)號: | CN103678659A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 李莉;鄭一曼;蔣巧娜;黃建鵬 | 申請(專利權)人: | 焦點科技股份有限公司;南京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張蘇沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 森林 算法 電子商務 網站 欺詐 用戶 識別 方法 系統 | ||
技術領域
本發明屬于電子商務領域,特別是一種基于隨機森林算法的電子商務網站欺詐用戶識別方法及系統。
背景技術
隨著信息化技術的飛速發展和互聯網的擴張,傳統市場的概念在量的范圍內發生了巨大的變化:表現在時間維度上的擴張和空間維度上的拓展。傳統市場的地理、政治、觀念等差異所形成的市場界限變得日益模糊,而互聯網的迅速發展使信息高度共享,進一步弱化了人們跨越時空的障礙,電子商務便是在這一時代背景下誕生的事物,它隨著互聯網的發展而迅速成長,在進入21世紀后日益成熟。電子商務使消費者有了一種全新的消費體驗,它極大地豐富了人們的物質生活,讓我們的生活環境變得更加舒適。
但是,當我們為網絡所帶來的種種便利而歡欣鼓舞時,卻又不得不面對由于網絡交易的虛擬性所引起的網絡欺詐行為的惡化趨勢。以美國為例,美國專門成立了一個機構IFCC(美國互聯網欺詐投訴中心,the?Internet?Fraud?Complaint?Center)來分析和應付由于嚴重的網絡欺詐行為對社會和經濟帶來了重大的損失題目。產生欺詐問題的根源在于電子商務交易主體的復雜性以及交易雙方的信息不對稱性。
許多國外學者對于在線欺詐的類型、成因做出研究,例如Macinnes(2005)曾總結出影響網上交易欺詐的因素包括產品、交易者、交易過程三方面。網上交易欺詐的類型主要包括有收款不發貨、故意提供錯誤信息、隱瞞費用、提供非法或劣質產品、多頭拍賣、雇傭他人來虛假出價等。由于網上交易并不像傳統交易那樣可以當場檢驗商品,我們只能在商品遞送到買家手中才能進行檢驗,所以交易發生前消費者只有根據賣家提供的特定信息進行評估,這就給賣家利用信息不對稱進行欺詐提供了機會。有效地識別用戶欺詐行為,才能進一步阻止這種違法及不利行為的發生,促進社會的快速健康發展。
這里,可以借鑒其他領域有關用戶欺詐識別的研究。
研究一:針對信用卡欺詐行為,許多學者采用了關聯規則分析的方法:以信用卡欺詐行為特征識別為例,境外發卡銀行通過對發生欺詐交易的歷史數據分析,發現在大額欺詐交易之前往往會出現小額試探性交易,并且這些小額試探性交易往往發生在夜間和偏僻地點。也就是說,同一卡號在夜間偏僻地點發生的小額自助交易和后續大額交易是否存在欺詐交易,二者之間往往具有較高關聯性,這就為發卡銀行的反欺詐工作提供了一定的借鑒。還有部分學者采用了機器學習中的支持向量機的方法:整個流程包括學習階段和檢測階段。首先,收集信用卡歷史數據,對這些數據進行預處理,使其成為支持向量機能夠識別的數據形式。然后,將信用卡數據分為訓練樣本和檢測樣本,分別用于學習階段和檢測階段的支持向量機建模。接著,利用支持向量機對訓練樣本進行學習,建立最優信用卡檢測模型。最后,采用最優檢測模型對信用卡檢測樣本進行檢測,驗證模型的有效性,并輸出檢測結果。
研究二:針對電信欺詐用戶,國內學者采用機器學習中的樸素貝葉斯分類方法進行研究。樸素貝葉斯分類模型將訓練實例分解成特征向量和決策類別變量。假定特征向量的各分量相對于決策變量是相對獨立的,也就是說各分量獨立地作用于決策變量。盡管這一假定一定程度上限制了樸素貝葉斯模型的適用范圍,然而在實際應用中,該模型不僅大大降低了貝葉斯網絡構建的復雜性,而且在許多不符合這一假定的情況下,樸素貝葉斯也表現出相當的健壯性和高效性。
從上面的研究可以看出,機器學習的方法在數據挖掘建模領域越來越受到重視,并且取得了不錯的成果。而在本發明中采用了機器學習中的隨機森林算法,該算法,具有很好的分類性能和較高的分類準確性,其模型的運算效率比較高,適合各種數據集的運算。同時,隨機森林算法對特征選取具有較好的魯棒性,不需要特征篩選也能得到較高的準確率,適用于超高維特征向量空間,具有較好的數據推廣和泛化能力。所以本發明選擇隨機森林算法作為電子商務網站欺詐用戶識別的分類器。
發明內容
本發明的目的在于提供一種基于隨機森林算法的電子商務網站欺詐用戶識別方法及系統,通過隨機森林算法對電子商務網站用戶進行分類,來有效地識別出欺詐用戶。
實現本發明目的的技術解決方案為:
一種基于隨機森林算法的電子商務網站欺詐用戶識別系統,包括依次連接的電子商務網站用戶數據處理模塊,用戶數據存儲模塊,用戶數據分析模塊,結果展示模塊。
一種基于隨機森林算法的電子商務網站欺詐用戶識別方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司;南京理工大學,未經焦點科技股份有限公司;南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310722134.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于內夾緊的工件傳送裝置
- 下一篇:文檔匹配方法和文檔匹配裝置





