[發明專利]用戶信息分類方法及裝置有效
| 申請號: | 202011513900.8 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112256881B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 顧凌云;謝旻旗;段灣;曾志;張濤;潘峻 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶信息 分類 方法 裝置 | ||
本申請實施例提供一種用戶信息分類方法及裝置,在對具有標簽的第一訓練特征變量進行模型訓練得到第一用戶信息分類模型的基礎上,通過采用無監督算法對中間狀態的第二訓練特征變量進行聚類后確定標簽,從而拓寬了人工標識的局限,并且利用確定標簽后的第二訓練特征變量進行模型訓練后進一步獲得第二用戶信息分類模型,再基于第二用戶信息分類模型對原有的第一訓練特征變量進行用戶信息分類后進行第三用戶信息分類模型的訓練,從而通過利用全量的中間樣本數據,提高了數據使用率,由于數據使用率的上升,也提高了原有第一用戶信息分類模型的建模效果和用戶信息分類效果,并且由于生成了多個用戶信息分類模型,在實際使用中更加方便靈活。
技術領域
本申請涉及計算機風控技術領域,具體而言,涉及一種用戶信息分類方法及裝置。
背景技術
在現有的風控業務場景中,在確定建模樣本標簽的定義時,一般利用滾動率分析來獲得不同標簽的定義并結合業務經驗來確定建模樣本的標簽,然后基于這個標簽的定義來進行風控建模。其中對于中間狀態的樣本數一般按照不超過總建模樣本的一定比例進入建模樣本或者直接刪除中間狀態的樣本進行風控建模。
然而,發明人研究發現,按照上述方案就意味著在風控建模中定義好樣本的標簽之后,會面臨一些中間狀態的樣本數據,這些中間狀態的樣本在建模的過程中不能確定其標簽,無論是直接將這些樣本數據刪除進行建模或者選擇部分中間狀態的樣本進入模型,均會面臨建模樣本在不同程度上變小,減弱模型學習效果的問題,特別是在建模樣本有限的情況下,這種問題尤為突出。
發明內容
基于現有設計的不足,本申請提供一種用戶信息分類方法及裝置,在對具有標簽的第一訓練特征變量進行模型訓練得到第一用戶信息分類模型的基礎上,通過采用無監督算法對中間狀態的第二訓練特征變量進行聚類后確定標簽,從而拓寬了人工標識的局限,并且利用確定標簽后的第二訓練特征變量進行模型訓練后進一步獲得第二用戶信息分類模型,再基于第二用戶信息分類模型對原有的第一訓練特征變量進行用戶信息分類后進行第三用戶信息分類模型的訓練,從而通過利用全量的中間樣本數據,提高了數據使用率,由于數據使用率的上升,也提高了原有第一用戶信息分類模型的建模效果和用戶信息分類效果,并且由于生成了多個用戶信息分類模型,在實際使用中可以結合不同用戶信息分類模型產生的指標分數制訂個性化的決策策略,更加方便靈活。
根據本申請實施例的第一方面,提供一種用戶信息分類方法,應用于計算機設備,所述方法包括:
從預設文本文件數據庫獲取第一訓練樣本數據和第二訓練樣本數據,所述第一訓練樣本數據為具有正標簽和負標簽的訓練樣本,所述第二訓練樣本數據為不具有正標簽和負標簽的訓練樣本;
提取所述第一訓練樣本數據的第一訓練特征變量和所述第二訓練樣本數據的第二訓練特征變量;
基于所述第一訓練樣本數據的第一訓練特征變量進行模型訓練得到第一用戶信息分類模型;
對所述第二訓練樣本數據的第二訓練特征變量進行聚類獲得所述第二訓練樣本數據中每個訓練樣本的訓練標簽,并基于所述第二訓練樣本數據和所述第二訓練樣本數據中每個訓練樣本的訓練標簽進行模型訓練得到第二用戶信息分類模型;
基于所述第二用戶信息分類模型對第一訓練樣本數據進行用戶信息分類,將用戶信息分類結果更新到所述第一訓練特征變量,基于所述第一訓練特征變量重新對所述第一用戶信息分類模型進行訓練,得到第三用戶信息分類模型,所述第三用戶信息分類模型用于對輸入的待分類樣本進行用戶信息分類。
在第一方面的一種可能的實施方式中,所述基于所述第一訓練樣本數據的第一訓練特征變量進行模型訓練得到第一用戶信息分類模型的步驟,包括:
對所述第一訓練特征變量進行飽和度和IV值計算,并根據計算結果,篩選出飽和度大于預設飽和度,并且IV值大于預設IV值的變量作為目標特征變量;
對所述目標特征變量按照IV圖進行填充,得到填充后的目標特征變量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011513900.8/2.html,轉載請聲明來源鉆瓜專利網。





