[發明專利]一種訓練數據的處理方法及裝置在審
| 申請號: | 201710098465.9 | 申請日: | 2017-02-22 |
| 公開(公告)號: | CN108460673A | 公開(公告)日: | 2018-08-28 |
| 發明(設計)人: | 張柯 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 蔣冬梅;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始訓練樣本 特征變量 訓練數據 樣本 目標訓練樣本 標簽 模型訓練 | ||
本文公開了一種訓練數據的處理方法及裝置,用于處理一個或多個原始訓練樣本,每個原始訓練樣本包括樣本標簽以及至少一個特征變量;上述訓練數據的處理方法,包括:確定用于對樣本標簽進行調整的特征變量;針對所確定的每個特征變量,確定特征變量的取值范圍,并在取值范圍內確定至少兩個分位值;針對每個原始訓練樣本,分別確定原始訓練樣本中該特征變量的值和每個分位值的比較結果,并根據每個比較結果分別對原始訓練樣本的樣本標簽進行調整,得到對應的目標訓練樣本,以便采用目標訓練樣本進行模型訓練。
技術領域
本發明涉及數據處理領域,尤其涉及一種訓練數據的處理方法及裝置。
背景技術
目前,通常可以采用訓練數據進行模型訓練,以得到具有特定功能的數據模型。比如,針對特定業務場景的用戶識別或預測需求,可以基于訓練樣本采用相應的算法進行模型訓練,以構建特定業務場景的用戶識別或預測模型。然而,如何對已有的訓練數據進行處理以優化訓練得到的模型(比如,提升對特定用戶的識別能力)是需要解決的問題。
以信用貸款業務的催收評分模型為例,催收評分模型是預測早期逾期客戶轉變成不良客戶的概率的計量工具。催收評分模型的建模目標在于區分高不良風險的逾期客戶(比如,模型輸出結果為1時識別為高不良風險的逾期客戶)和低不良風險的逾期客戶(比如,模型輸出結果為0時識別為低不良風險的逾期客戶);但是對于不同嚴重程度的高不良風險的逾期客戶(以下簡稱為高風險不良客戶)沒有選擇性,也就是說,逾期10塊錢的高風險不良客戶和逾期10000塊的高風險不良客戶對催收評分模型來講不良嚴重程度是相同的,或者還款率10%的高風險不良客戶和還款率90%的高風險不良客戶對催收評分模型而言不良嚴重程度是相同的,即基于現有的訓練數據訓練得到的模型無法對高風險不良客戶進行進一步區分,導致催收評分模型的識別目標和催收業務的實際運營目標并不完全一致,影響催收效率的提升。
發明內容
以下是對本文詳細描述的主題的概述。本概述并非是為了限制權利要求的保護范圍。
本申請實施例提供一種訓練數據的處理方法及裝置,通過對每個原始訓練樣本進行處理得到更新樣本標簽后的多個目標訓練樣本,使得在進行模型訓練時增加對所選擇的特征變量的進一步考量,以對模型識別結果進行優化。
第一方面,本申請實施例提供一種訓練數據的處理方法,用于處理一個或多個原始訓練樣本;所述每個原始訓練樣本包括樣本標簽以及至少一個特征變量;所述處理方法包括:
確定用于對所述樣本標簽進行調整的特征變量;
針對所確定的每個特征變量,確定所述特征變量的取值范圍,并在所述取值范圍內,確定至少兩個分位值;
針對每個原始訓練樣本,分別確定所述原始訓練樣本中所述特征變量的值和每個分位值的比較結果,并根據每個比較結果分別對所述原始訓練樣本的樣本標簽進行調整,得到對應的目標訓練樣本,以便采用所述目標訓練樣本進行模型訓練。
其中,所述樣本標簽的值可以為0或1;所述根據每個比較結果分別對所述原始訓練樣本的樣本標簽進行調整,得到對應的目標訓練樣本,可以包括以下之一:
針對每個分位值,若所述原始訓練樣本中所述特征變量的值大于或等于所述分位值,在所述目標訓練樣本中保持所述樣本標簽的值;若所述原始訓練樣本中所述特征變量的值小于所述分位值,在所述目標訓練樣本中調整所述樣本標簽的值為0;
針對每個分位值,若所述原始訓練樣本中所述特征變量的值小于或等于所述分位值,在所述目標訓練樣本中保持所述樣本標簽的值;若所述原始訓練樣本中所述特征變量的值大于所述分位值,在所述目標訓練樣本中調整所述樣本標簽的值為0。
其中,所述針對所確定的每個特征變量,確定所述特征變量的取值范圍,并在所述取值范圍內,確定至少兩個分位值,可以包括:
篩選出符合預定條件的原始訓練樣本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710098465.9/2.html,轉載請聲明來源鉆瓜專利網。





