[發明專利]分類信息網站中的基于機器學習的欺詐行為識別系統有效
| 申請號: | 201410022138.1 | 申請日: | 2014-01-17 |
| 公開(公告)號: | CN103793484B | 公開(公告)日: | 2017-03-15 |
| 發明(設計)人: | 張鵬;張愛華;張美琦;張朝陽;孫亞健 | 申請(專利權)人: | 五八同城信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F15/18 |
| 代理公司: | 北京律恒立業知識產權代理事務所(特殊普通合伙)11416 | 代理人: | 顧珊,嚴業福 |
| 地址: | 300457 天津市濱海新區第一*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 信息 網站 中的 基于 機器 學習 欺詐 行為 識別 系統 | ||
1.一種用于分類信息網站中基于機器學習的欺詐行為識別系統的方法,所述方法包括如下步驟:
a)基于已有的用戶行為數據抽取樣本數據,用于首次生成模型;
b)針對不同業務類型的訓練數據選擇提取多種用戶行為特征;
c)基于所提取的用戶行為特征,對所述樣本訓練數據進行向量化;
d)利用向量化的樣本訓練數據產生預測模型;
e)利用所產生的模型基于分類和聚類規則對線上數據進行檢測;
f)對所檢測得到的異常用戶數據進行處理。
2.如權利要求1所述的方法,其中所述步驟a中的樣本數據包括正樣本數據和負樣本數據,分別對應于優質行為的用戶和劣質行為的用戶。
3.如權利要求1所述的方法,其中所述步驟b中用戶行為特征包括對于同一cookie的用戶行為數據以及用戶各維度的統計數量。
4.如權利要求1所述的方法,其中所述步驟b中通過計算信息熵和模型交叉數據驗證的方式來選擇對不同業務類型提取的用戶特征。
5.如權利要求1所述的方法,其中所述步驟d中使用概率型的分類器進行決策。
6.如權利要求1所述的方法,其中所述步驟e中利用模型計算表示用戶行為數據的異常概率的概率點。
7.如權利要求6所述的方法,其中計算所述概率點的方法為,多個模型分別對用戶行為數據的多組特征進行檢測,并分別得出一個分概率點,然后對各分概率點進行乘積和轉化操作,得出用戶行為數據的概率點。
8.如權利要求1所述的方法,其中所述步驟e中基于分類規則的用戶異常行為檢測方法包括設定一條概率線用于判斷用戶行為數據是否為壞數據。
9.如權利要求1所述的方法,其中所述步驟e中基于聚類規則的用戶異常行為檢測方法包括如下:
e1)對概率點進行聚類現象監測;
e2)將概率點聚類到一定數量的用戶行為進行檢測,以判斷聚類至相同概率點的用戶行為是否為劣質用戶行為;
e3)根據檢測結果,異常用戶行為判別模型對該類用戶行為的概率點進行更新;
e4)將經過檢測發現的新的壞數據作為訓練數據加入樣本庫;
e5)利用新的訓練數據訓練模型。
10.如權利要求1所述的方法,其中所述步驟e5中對于概率點不準確的用戶行為數據進行離線分析,尋找新的用戶行為特征并選擇合適的特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于五八同城信息技術有限公司,未經五八同城信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410022138.1/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





