[發明專利]用于機器學習模型的樣本數據生成方法、裝置及電子設備在審
| 申請號: | 201910921527.0 | 申請日: | 2019-09-27 |
| 公開(公告)號: | CN110781922A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 高明宇;王鵬;張潮華;鄭彥 | 申請(專利權)人: | 北京淇瑀信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/10;G06Q10/06 |
| 代理公司: | 11691 北京清誠知識產權代理有限公司 | 代理人: | 曹玲柱 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 集合 負樣本 正樣本 機器學習模型 子集合 分類樣本 歷史用戶 樣本數據 正負樣本 計算機可讀介質 異常值監測 電子設備 分類模型 金融數據 輸入用戶 數據處理 數據集合 用戶分類 算法 | ||
本公開涉及一種用于機器學習模型的樣本數據生成方法、裝置、電子設備及計算機可讀介質。該方法包括:根據用戶活躍時間和異常值監測算法將多個歷史用戶分入正樣本集合、負樣本集合和未分類樣本集合;基于正樣本集合、負樣本集合對第一機器學習模型進行訓練,生成用戶分類模型;將未分類樣本集合中的歷史用戶的金融數據輸入用戶分類模型中,生成正樣本子集合和負樣本子集合;通過正樣本集合、正樣本子集合生成用于機器學習模型的正樣本數據;以及通過負樣本集合、負樣本子集合生成用于機器學習模型的負樣本數據。本公開的一種用于機器學習模型的樣本數據生成方法,能夠對現有的正負樣本數據進行數據處理生成更加精確的正負樣本數據集合。
技術領域
本公開涉及計算機信息處理領域,具體而言,涉及一種用于機器學習模型的樣本數據生成方法、裝置、電子設備及計算機可讀介質。
背景技術
通常情況下機器學習模型需要對正樣本和負樣本進行學習,正樣本是正確分類出的類別所對應的樣本,負樣本原則上可以選取任何不是正確類別的其他樣本。機器學習模型根據正負樣本建立特定的任務,然后通過特定的數據來對機器學習進行訓練,在訓練結束后,得到適用于某一個特定任務的機器學習模型。
通常情況下,即使用同一個機器學習模型的算法,但是用不同的數據訓練得到的機器學習模型是完全不同的。但是對于金融領域的模型而言,特別是對于評價用戶行為的用戶金融類的機器模型而言,對存量客戶管理時候,最簡單的可以將客戶分為流失和未流失。傳統的客戶歷史模型直接使用上述數據集進行建模。然而,流失客戶數據特征維度多、飽和度低等問題,流失客戶特征聚集度低,直接建模效果不佳。如果直接將未流失客戶當做負樣本訓練機器學習模型中的二分類模型的話,由于負樣本中存在大量正樣本(未來可能會動支的客戶),這種負樣本會引入很多誤差數據,可能導致訓練出來的最終的模型效果不夠理想。
因此,需要一種新的用于機器學習模型的樣本數據生成方法、裝置、電子設備及計算機可讀介質。
在所述背景技術部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
有鑒于此,本公開提供一種用于機器學習模型的樣本數據生成方法、裝置、電子設備及計算機可讀介質,能夠對現有的正負樣本數據進行數據處理生成更加精確的正負樣本數據集合,進而通過精確的正負樣本數據集合對機器學習模型進行訓練,生成金融風險模型。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開的一方面,提出一種用于機器學習模型的樣本數據生成方法,該方法包括:獲取多個歷史用戶的金融數據,所述金融數據中包括用戶活躍時間;根據所述用戶活躍時間和異常值監測算法將所述多個歷史用戶分入正樣本集合、負樣本集合和未分類樣本集合;基于所述正樣本集合、所述負樣本集合對第一機器學習模型進行訓練,生成用戶分類模型;將所述未分類樣本集合中的歷史用戶的金融數據輸入所述用戶分類模型中,生成正樣本子集合和負樣本子集合;通過正樣本集合、正樣本子集合生成用于機器學習模型的正樣本數據;以及通過負樣本集合、負樣本子集合生成用于機器學習模型的負樣本數據。
可選地,還包括:通過所述正樣本數據與所述負樣本數據訓練第二機器學習模型以生成用戶流失模型。
可選地,根據所述用戶活躍時間和異常值監測算法將所述多個歷史用戶分入正樣本集合、負樣本集合和未分類樣本集合包括:根據所述用戶活躍時間將所述多個歷史用戶分別分入第一用戶集合和第二用戶集合;通過異常值監測算法對第一用戶集合和第二用戶集合中的歷史用戶的金融數據進行篩選以生成所述正樣本集合、所述負樣本集合和所述未分類樣本集合。
可選地,根據所述用戶活躍時間將所述多個歷史用戶分別分入第一用戶集合和第二用戶集合包括:將所述用戶活躍時間大于預定日期的歷史用戶分入所述第一用戶集合;以及將所述用戶活躍時間小于等于預定日期的歷史用戶分入所述第二用戶集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京淇瑀信息科技有限公司,未經北京淇瑀信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910921527.0/2.html,轉載請聲明來源鉆瓜專利網。





