[發明專利]數據處理方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010238056.6 | 申請日: | 2020-03-30 |
| 公開(公告)號: | CN111461863A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 楊情;李京昊;劉揚;陳鵬程 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06K9/62 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 唐述燦 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種數據處理方法,其特征在于,所述方法包括:
獲取在線網絡業務的用戶數據;
將所述用戶數據輸入信用評分卡模型,獲得所述用戶數據的初步數據處理結果;
響應于所述初步數據處理結果指示所述用戶數據對應的用戶為候選用戶,將所述用戶數據輸入至數據處理規則模型中得到所述用戶數據的數據處理結果,所述數據處理結果用以指示所述用戶數據對應的用戶是否為目標用戶,所述數據處理規則模型是根據第一訓練集訓練得到的,所述第一訓練集包括白樣本和黑樣本。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括基于所述第一訓練集建立所述數據處理規則模型,所述數據處理規則模型的建立過程包括:
在第1次迭代過程中,基于所述第一訓練集生成第一規則,所述第一規則是指從所述第一訓練集中篩選出所述黑樣本時,黑樣本率最高的規則;
剔除所述第一訓練集中命中所述第一規則的樣本,生成第二訓練集;
在第n次迭代過程中,基于第n訓練集生成第n規則,所述第n規則是指從所述第n訓練集中篩選出所述黑樣本時,所述黑樣本率最高的規則,n為正整數;
剔除所述第n訓練集中命中所述第n規則的樣本,生成第n+1訓練集;
響應于所述第n+1訓練集滿足指定條件,停止迭代;
將所述第一規則至所述第n規則進行組合,生成所述數據處理規則模型。
3.根據權利要求2所述的方法,其特征在于,所述在第n次迭代過程中,基于所述第n訓練集生成第n規則,包括:
基于所述第n訓練集構建m個決策樹模型,其中,構建m個所述決策樹模型所使用的N個特征組中,每個所述特征組中均存在至少一個特征與其他所述特征組不相同,m,N為正整數;
獲取m個所述決策樹模型的各個葉子節點中的所述黑樣本率和黑樣本召回率,所述黑樣本召回率是指,通過所述葉子節點篩選出的黑樣本數量占所述葉子節點中黑樣本總數的比例;
根據各個所述決策樹模型中各個所述葉子節點的所述黑樣本率和所述黑樣本召回率確定規則路徑集;
確定所述規則路徑集中所述黑樣本率最高的所述規則路徑所對應的子特征組為所述第n規則。
4.根據權利要求3所述的方法,其特征在于,所述在第n次迭代過程中,基于所述第n訓練集生成第n規則之前,還包括:
獲取所述第n訓練集的所述黑樣本總數和所述黑樣本率;
所述根據各個所述決策樹中各個所述葉子節點的所述黑樣本率和所述黑樣本召回率確定規則路徑集包括:
響應于各個所述決策樹中各個所述葉子節點的所述黑樣本率滿足與對應的所述第n訓練集的黑樣本率之間的倍數關系,所述黑樣本召回率達到第一閾值,確定所述葉子節點對應的規則路徑為所述規則路徑集的子集。
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:
所述規則路徑集的子集所對應的所述葉子節點的所述黑樣本率大于所述葉子節點的所述黑樣本召回率。
6.根據權利要求3所述的方法,其特征在于,所述決策樹模型的深度滿足第二閾值,所述構建m個決策樹模型還包括:
根據所述決策樹模型的深度確定所述m個決策樹模型所使用的N個所述特征組中,每個所述特征組所包含的特征個數;
其中,所述特征組中的特征在所述決策樹模型中的分布是根據所述特征在所述決策樹模型中的對應節點的所述黑樣本誤判率確定的。
7.根據權利要求6所述的方法,其特征在于,所述特征在所述決策樹模型中的對應節點的所述黑樣本誤判率是通過計算所述特征對對應節點的樣本集計算損失函數進行確定的,所述損失函數中,所述黑樣本的誤判率的計算權重高于所述白樣本的誤判率的計算權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010238056.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種科技文檔的聚類方法
- 下一篇:事件對業務量的影響的確定方法及裝置





