[發(fā)明專利]用戶信息分類方法及裝置有效
| 申請?zhí)枺?/td> | 202011513900.8 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112256881B | 公開(公告)日: | 2021-03-23 |
| 發(fā)明(設(shè)計)人: | 顧凌云;謝旻旗;段灣;曾志;張濤;潘峻 | 申請(專利權(quán))人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335 |
| 代理公司: | 成都頂峰專利事務(wù)所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶信息 分類 方法 裝置 | ||
本申請實施例提供一種用戶信息分類方法及裝置,在對具有標簽的第一訓(xùn)練特征變量進行模型訓(xùn)練得到第一用戶信息分類模型的基礎(chǔ)上,通過采用無監(jiān)督算法對中間狀態(tài)的第二訓(xùn)練特征變量進行聚類后確定標簽,從而拓寬了人工標識的局限,并且利用確定標簽后的第二訓(xùn)練特征變量進行模型訓(xùn)練后進一步獲得第二用戶信息分類模型,再基于第二用戶信息分類模型對原有的第一訓(xùn)練特征變量進行用戶信息分類后進行第三用戶信息分類模型的訓(xùn)練,從而通過利用全量的中間樣本數(shù)據(jù),提高了數(shù)據(jù)使用率,由于數(shù)據(jù)使用率的上升,也提高了原有第一用戶信息分類模型的建模效果和用戶信息分類效果,并且由于生成了多個用戶信息分類模型,在實際使用中更加方便靈活。
技術(shù)領(lǐng)域
本申請涉及計算機風(fēng)控技術(shù)領(lǐng)域,具體而言,涉及一種用戶信息分類方法及裝置。
背景技術(shù)
在現(xiàn)有的風(fēng)控業(yè)務(wù)場景中,在確定建模樣本標簽的定義時,一般利用滾動率分析來獲得不同標簽的定義并結(jié)合業(yè)務(wù)經(jīng)驗來確定建模樣本的標簽,然后基于這個標簽的定義來進行風(fēng)控建模。其中對于中間狀態(tài)的樣本數(shù)一般按照不超過總建模樣本的一定比例進入建模樣本或者直接刪除中間狀態(tài)的樣本進行風(fēng)控建模。
然而,發(fā)明人研究發(fā)現(xiàn),按照上述方案就意味著在風(fēng)控建模中定義好樣本的標簽之后,會面臨一些中間狀態(tài)的樣本數(shù)據(jù),這些中間狀態(tài)的樣本在建模的過程中不能確定其標簽,無論是直接將這些樣本數(shù)據(jù)刪除進行建模或者選擇部分中間狀態(tài)的樣本進入模型,均會面臨建模樣本在不同程度上變小,減弱模型學(xué)習(xí)效果的問題,特別是在建模樣本有限的情況下,這種問題尤為突出。
發(fā)明內(nèi)容
基于現(xiàn)有設(shè)計的不足,本申請?zhí)峁┮环N用戶信息分類方法及裝置,在對具有標簽的第一訓(xùn)練特征變量進行模型訓(xùn)練得到第一用戶信息分類模型的基礎(chǔ)上,通過采用無監(jiān)督算法對中間狀態(tài)的第二訓(xùn)練特征變量進行聚類后確定標簽,從而拓寬了人工標識的局限,并且利用確定標簽后的第二訓(xùn)練特征變量進行模型訓(xùn)練后進一步獲得第二用戶信息分類模型,再基于第二用戶信息分類模型對原有的第一訓(xùn)練特征變量進行用戶信息分類后進行第三用戶信息分類模型的訓(xùn)練,從而通過利用全量的中間樣本數(shù)據(jù),提高了數(shù)據(jù)使用率,由于數(shù)據(jù)使用率的上升,也提高了原有第一用戶信息分類模型的建模效果和用戶信息分類效果,并且由于生成了多個用戶信息分類模型,在實際使用中可以結(jié)合不同用戶信息分類模型產(chǎn)生的指標分數(shù)制訂個性化的決策策略,更加方便靈活。
根據(jù)本申請實施例的第一方面,提供一種用戶信息分類方法,應(yīng)用于計算機設(shè)備,所述方法包括:
從預(yù)設(shè)文本文件數(shù)據(jù)庫獲取第一訓(xùn)練樣本數(shù)據(jù)和第二訓(xùn)練樣本數(shù)據(jù),所述第一訓(xùn)練樣本數(shù)據(jù)為具有正標簽和負標簽的訓(xùn)練樣本,所述第二訓(xùn)練樣本數(shù)據(jù)為不具有正標簽和負標簽的訓(xùn)練樣本;
提取所述第一訓(xùn)練樣本數(shù)據(jù)的第一訓(xùn)練特征變量和所述第二訓(xùn)練樣本數(shù)據(jù)的第二訓(xùn)練特征變量;
基于所述第一訓(xùn)練樣本數(shù)據(jù)的第一訓(xùn)練特征變量進行模型訓(xùn)練得到第一用戶信息分類模型;
對所述第二訓(xùn)練樣本數(shù)據(jù)的第二訓(xùn)練特征變量進行聚類獲得所述第二訓(xùn)練樣本數(shù)據(jù)中每個訓(xùn)練樣本的訓(xùn)練標簽,并基于所述第二訓(xùn)練樣本數(shù)據(jù)和所述第二訓(xùn)練樣本數(shù)據(jù)中每個訓(xùn)練樣本的訓(xùn)練標簽進行模型訓(xùn)練得到第二用戶信息分類模型;
基于所述第二用戶信息分類模型對第一訓(xùn)練樣本數(shù)據(jù)進行用戶信息分類,將用戶信息分類結(jié)果更新到所述第一訓(xùn)練特征變量,基于所述第一訓(xùn)練特征變量重新對所述第一用戶信息分類模型進行訓(xùn)練,得到第三用戶信息分類模型,所述第三用戶信息分類模型用于對輸入的待分類樣本進行用戶信息分類。
在第一方面的一種可能的實施方式中,所述基于所述第一訓(xùn)練樣本數(shù)據(jù)的第一訓(xùn)練特征變量進行模型訓(xùn)練得到第一用戶信息分類模型的步驟,包括:
對所述第一訓(xùn)練特征變量進行飽和度和IV值計算,并根據(jù)計算結(jié)果,篩選出飽和度大于預(yù)設(shè)飽和度,并且IV值大于預(yù)設(shè)IV值的變量作為目標特征變量;
對所述目標特征變量按照IV圖進行填充,得到填充后的目標特征變量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海冰鑒信息科技有限公司,未經(jīng)上海冰鑒信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011513900.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





