[發明專利]樣本模型訓練方法、樣本生成方法、裝置、設備及介質在審
| 申請號: | 202010218666.X | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111581877A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 張躍 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/08 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 周燕君 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 模型 訓練 方法 生成 裝置 設備 介質 | ||
1.一種樣本模型訓練方法,其特征在于,包括:
獲取原始訓練數據,所述原始訓練數據包括樣本標簽和至少兩個樣本特征對應的特征數據;
將所述原始訓練數據輸入到基于樹模型構建的初始森林模型,獲取所述原始訓練數據對應的One-Hot編碼形式的原始高階組合特征,所述初始森林模型包括依序排布的至少兩棵特征樹,每一所述特征樹與一所述樣本特征相對應,包括至少兩個初始葉子節點;
基于所述樣本標簽和所述原始高階組合特征進行穩定性篩選,確定有效葉子節點,基于所述有效葉子節點對所述初始森林模型的初始葉子節點進行截枝,獲取有效森林模型;
將所述原始訓練數據輸入到所述有效森林模型,獲取所述原始訓練數據對應的One-Hot編碼形式的有效高階組合特征;
基于所述樣本標簽和所述有效高階組合特征進行LR正則化篩選,確定目標葉子節點,基于所述目標葉子節點對所述有效森林模型中的有效葉子節點進行截枝,獲取目標森林模型。
2.如權利要求1所述的樣本模型訓練方法,其特征在于,所述原始訓練數據還包括時間標簽;
所述基于所述樣本標簽和所述原始高階組合特征進行穩定性篩選,確定有效葉子節點,包括:
基于所述時間標簽和所述原始高階組合特征進行飽和度分析,獲取每一所述樣本特征對應的飽和度分析結果;
基于所述樣本標簽和所述原始高階組合特征進行重要性分析,獲取每一所述樣本特征對應的重要性分析結果;
若所述飽和度分析結果符合飽和度標準閾值,且所述重要性分析結果符合重要性標準閾值,則將所述樣本特征對應的所述初始森林模型中的初始葉子節點確定為有效葉子節點。
3.如權利要求2所述的樣本模型訓練方法,其特征在于,所述基于所述時間標簽和所述原始高階組合特征進行飽和度分析,獲取每一所述樣本特征對應的飽和度分析結果,包括:
基于時間分組周期,對與所述時間標簽相對應的原始高階組合特征進行分組,獲取至少兩個時間特征組;
統計所述時間特征組中原始高階組合特征的第一特征數量,統計所述時間特征組中同一樣本特征對應的初始葉子節點中原始高階組合特征的第二特征數量,基于所述第一特征數量和所述第二特征數量,確定每一所述初始葉子節點的當前飽和度;
對至少兩個所述時間特征組中,同一所述初始葉子節點的當前飽和度進行標準差計算,獲取每一樣本特征對應的飽和度分析結果。
4.如權利要求2所述的樣本模型訓練方法,其特征在于,所述基于所述樣本標簽和所述原始高階組合特征進行重要性分析,獲取每一所述樣本特征對應的重要性分析結果,包括:
從所述樣本標簽與模型訓練目的相匹配的原始高階組合特征中,統計同一樣本特征對應的初始葉子節點中原始高階組合特征的第三特征數量,將所述第三特征數量最大的樣本特征值確定為所述樣本特征對應的標準特征值;
原始高階組合特征中每一所述樣本特征對應的樣本特征值與所述標準特征值,確定每一所述樣本特征的當前相關系數;
對所有所述原始高階組合特征對應的當前相關系數進行標準差計算,獲取每一樣本特征對應的重要性分析結果。
5.如權利要求1所述的樣本模型訓練方法,其特征在于,所述基于所述樣本標簽和所述有效高階組合特征進行LR正則化篩選,確定目標葉子節點,包括:
將所有有效高階組合劃分成訓練集和驗證集,基于所述訓練集中的有效高階組合特征進行LR建模,調整L2正則化系數,使得所述驗證集中的有效高階組合特征的AUC最大,以獲取目標LR模型;
基于所述目標LR模型,獲取所述有效森林模型中的每一所述有效葉子節點對應的LR系數的絕對值;
選擇所述LR系數的絕對值較大的預設數量的有效葉子節點,確定為目標葉子節點。
6.一種樣本生成方法,其特征在于,包括:
獲取待處理數據,所述待處理數據包括至少兩個樣本特征對應的特征數據;
將至少兩個樣本特征對應的特征數據輸入權利要求1至5任一項所述樣本模型訓練方法確定的目標森林模型,將所述目標森林模型輸出的One-Hot編碼形式的目標高階組合特征,確定為DeepFM模型的模型訓練樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010218666.X/1.html,轉載請聲明來源鉆瓜專利網。





