[發明專利]基于人工智能的數據處理方法、裝置、終端及存儲介質有效
| 申請號: | 202011059580.3 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112199417B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 張躍;張浩然 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06K9/62;G06N3/12 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 陳敬華;楊毅玲 |
| 地址: | 518000 廣東省深圳市福田區益田路503*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 數據處理 方法 裝置 終端 存儲 介質 | ||
本發明涉及人工智能技術領域,提供一種基于人工智能的數據處理方法、裝置、終端及存儲介質,包括:將使用XGBoost模型從原始數據集中選取出的重要數據集切分為多個分數據集;使用每個分數據集訓練并測試lightGBM模型得到測試通過率;將分數據集中第一個字段對應的訓練數據及測試數據進行預標準化處理得到新的分數據集;使用新的分數據集訓練并測試lightGBM模型得到測試通過率;根據兩次測試通過率判斷是否需要對第一個字段對應的數據進行標準化處理;重復執行上述過程直至判斷是否需要對重要數據集中最后一個字段對應的數據進行標準化處理,根據所有的判斷結果更新重要數據集得到目標數據集。本發明能夠選取出具有較強穩定性且對預測模型具有較大貢獻度的數據集。
技術領域
本發明涉及人工智能技術領域,具體涉及一種基于人工智能的數據處理方法、裝置、終端及存儲介質。
背景技術
在代理人留存/低業績預測模型中,部分特征由于受到季節性(例如2月入司人數和質量)和業務方面(例如強推APP、考核月和非考核月的新人質量)的影響,存在跨時間不穩定的現象,即特征的分布(均值、標準差等等)隨時間變化而變化,這就給模型的訓練和跨時間預測帶來了困難。
此外,由于代理人留存/低業績預測模型的訓練是將預測月份的前3至6個月的數據作為一個訓練集整體來進行訓練(例如預測9月的留存/低業績模型的訓練集是3月-6月的數據做為一個整體),常用的樹模型(GBDT/XGBOOST等等)是針對特征在訓練月份(4月-6月)的整體分布而尋找最優分裂點。然而每個月的入司人群的質量可能略有差異,這就導致尋找到的最優分裂點在訓練的多個月份不一定穩定;預測月份和訓練月份的入司的人群質量、特征分布也存在差異,這就為模型跨時間預測的穩定性造成了潛在的隱患。
發明內容
鑒于以上內容,有必要提出一種基于人工智能的數據處理方法、裝置、終端及存儲介質,能夠從原始數據集中選取出具有較強穩定性且對預測模型具有較大貢獻度的目標數據集。
本發明的第一方面提供一種基于人工智能的數據處理方法,所述方法包括:
將使用XGBoost模型從原始數據集中選取出的重要數據集切分為多個第一分數據集,使用每個第一分數據集對訓練后的第一lightGBM模型進行測試得到第一測試通過率,其中,所述重要數據集與每個第一分數據集具有相同的多個字段;
將每個第一分數據集中第一個字段對應的數據進行預標準化處理得到第二分數據集,并使用每個第二分數據集對訓練后的第二lightGBM模型進行測試得到第二測試通過率;
根據多個所述第一測試通過率及對應的所述第二測試通過率判斷是否需要對所述重要數據集中的所述第一個字段對應的數據進行標準化處理,并根據判斷得到的判斷結果更新所述第二分數據集;
將每個更新后的第二分數據集中第二個字段對應的數據進行預標準化處理得到第三分數據集,并使用每個第三分數據集對訓練后的第三lightGBM模型進行測試得到第三測試通過率;
重復執行上述過程直至判斷是否需要對所述重要數據集中的最后一個字段對應的數據進行標準化處理,并根據所有的判斷結果更新所述重要數據集得到目標數據集。
可選的,所述使用XGBoost模型從原始數據集中選取出重要數據集的過程包括:
基于所述原始數據集訓練第一XGBoost模型,獲取所述第一XGBoost模型輸出的所述原始數據集中每個字段的重要度值,并計算所述第一XGBoost模型的第一預測準確率;
對所述重要度值按照從大到小進行排序;
讀取預設數值序列中的第一個數值,從排序后的重要度值中獲取所述第一個數值的重要度值對應的第一目標字段,并將所述第一目標字段對應的多個原始數據作為第一子原始數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011059580.3/2.html,轉載請聲明來源鉆瓜專利網。





