[發明專利]一種用戶樣本特征優化處理方法和裝置在審
| 申請號: | 201610091834.7 | 申請日: | 2016-02-18 |
| 公開(公告)號: | CN107092919A | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 席炎;張柯;余舟華;漆遠;楊軍;李瀾博;黃俊;葉偉;郭曦 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 黃熊 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 樣本 特征 優化 處理 方法 裝置 | ||
技術領域
本申請涉及計算機技術領域,尤其涉及一種用戶樣本特征優化處理方法和裝置。
背景技術
隨著信息技術的不斷發展,時下已經步入大數據時代,商家或企業等可通過其提供的各種服務平臺收集到海量用戶樣本,這些用戶樣本中通常具有很多特征,例如用戶在網絡上購物消費的金額,退換貨的記錄,購買金融投資產品的金額,用戶A和用戶B之間關系的緊密程度等,通過對這些用戶樣本的特征進行處理,進而輸入模型進行訓練,最終得到能夠預測出新的用戶行為的分類模型。得出分類模型之后,將新的用戶樣本經過處理輸入上述分類模型,經過模型計算即可對該用戶樣本進行預測,例如,預測該用戶為信用良好或信用較差等。
對用戶樣本的特征進行處理時,通常是對特征值進行處理以得到該特征的新取值,目前常用的處理方法為最大值最小值處理法,其步驟如下:第一步,統計出用戶樣本在特征上的最大值與最小值;第二步,利用最大值最小值法將每個用戶樣本的該特征的取值進行處理,由此將特征的新取值范圍映射到了0到1之間。
利用上述最大值最小值處理法對用戶樣本特征值處理,容易使處理后特征的新取值不能貼合正樣本濃度的變化趨勢,最終有可能導致模型在訓練時不能很好地學習出該特征的線性規律,從而降低模型的學習效果,導致模型的預測精度下降。
發明內容
基于上述技術問題,本申請實施例提供一種用戶樣本特征優化處理方法和裝置,用于對用戶樣本特征優化處理,進而使構造出的特征值更加貼合正樣本濃度的變化趨勢。
本申請實施例采用下述技術方案:
一種用戶樣本特征優化處理方法,包括:確定用戶樣本集內用戶樣本的待優化特征,所述用戶樣本集中包括有正樣本;根據各個用戶樣本的所述特征的取值以預定的N個分位點將用戶樣本集內的用戶樣本劃分到N+1個區間,N為大于1的正整數;對于N+1個區間中的每一個區間,均計算每一個區間中正樣本的數量占區間整體用戶樣本數量的比值;將每一個區間中計算出的比值確定為該區間內各用戶樣本的所述特征的新取值。
優選地,將每一個區間中計算出的比值確定為該區間內各用戶樣本的所述特征的新取值之后,所述方法還包括:對用戶樣本的所述特征的新取值進行歸一化處理。
優選地,對用戶樣本的所述特征的新取值進行歸一化處理,具體包括:確定所述特征的新取值中的最大值與最小值;對所述特征中的每一個新取值,均按如下公式進行處理,將處理后的數值作為所述特征的取值:
其中,Fnew為進行處理后的數值,Fold為進行處理之前所述特征的新取值,Fmax、Fmin分別為所述特征新取值中的最大值與最小值。
優選地,將每一個區間中計算出的比值確定為該區間內各用戶樣本的所述特征的新取值之前,所述方法還包括:選取出每個區間中的比值和所述預定分位點所確定的預設值之間不滿足線性關系的特征。
優選地,根據各個用戶樣本的所述特征的取值以預定的N個分位點將用戶樣本集內的用戶樣本劃分到N+1個區間,具體包括:根據各個用戶樣本的所述 特征的取值進行排序;將N個分位點上對應的取值作為邊界,將用戶樣本集內的用戶樣本分成N+1個區間。
優選地,在對用戶樣本的所述特征的新取值進行歸一化處理之后,所述方法還包括,將處理后的用戶樣本輸入線性模型進行訓練。
一種用戶樣本特征優化處理裝置,包括:特征確定模塊、區間劃分模塊、比值計算模塊和特征值確定模塊,其中:所述特征確定模塊,用于確定用戶樣本集內用戶樣本的待優化特征,所述用戶樣本集中包括有正樣本;所述區間劃分模塊,用于根據各個用戶樣本的所述特征的取值以預定的N個分位點將用戶樣本集內的用戶樣本劃分到N+1個區間,N為大于1的正整數;所述比值計算模塊,用于對于N+1個區間中的每一個區間,均計算每一個區間中正樣本的數量占區間整體用戶樣本數量的比值;所述特征值確定模塊,用于將每一個區間中計算出的比值確定為該區間內各用戶樣本的所述特征的新取值。
優選地,所述裝置還包括歸一化模塊,其中:所述歸一化模塊,用于對用戶樣本的所述特征的新取值進行歸一化處理。
優選地,所述歸一化模塊具體包括確定子單元和處理子單元,其中:所述確定子單元,用于確定所述特征的新取值中的最大值與最小值;所述處理子單元,用于對所述特征中的每一個新取值,均按如下公式進行處理,將處理后的數值作為所述特征的取值:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610091834.7/2.html,轉載請聲明來源鉆瓜專利網。





