[發明專利]訓練數據集的貢獻度計算方法、裝置、設備及存儲介質在審
| 申請號: | 202010123970.6 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111325353A | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 卓本剛;黃啟軍;唐興興;林冰垠 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 王韜 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 數據 貢獻 計算方法 裝置 設備 存儲 介質 | ||
本發明公開了一種訓練數據集的貢獻度計算方法、裝置、設備及存儲介質,涉及金融科技領域,該方法包括步驟:獲取訓練機器學習模型的各訓練數據集;計算所述訓練數據集中各個特征的沙普利可加性模型解釋方法SHAP目標值;根據所述訓練數據集中各個特征的SHAP目標值計算所述訓練數據集的貢獻度。本發明實現了通過訓練數據集中各個特征的SHAP目標值對應計算得到各訓練數據集的貢獻度,以通過各訓練數據集的貢獻度來評價各訓練數據集在訓練機器學習模型過程中的重要度,以便于更準確地選擇訓練機器學習模型的訓練數據集,從而提高訓練所得機器學習模型對數據預測的準確率。
技術領域
本發明涉及金融科技(Fintech)的數據處理技術領域,尤其涉及一種訓練數據集的貢獻度計算方法、裝置、設備及存儲介質。
背景技術
隨著計算機技術的發展,越來越多的技術應用在金融領域,傳統金融業正在逐步向金融科技(Fintech)轉變,數據處理技術也不例外,但由于金融行業的安全性、實時性要求,也對技術提出的更高的要求。
數據對于機器學習建模非常重要,一份高質量的數據,有助于提升機器學習模型的性能,進而提升業務收益或者降低運營成本。在機器學習的大規模實踐部署過程中,越來越凸顯出數據的價值,數據逐漸演變成一種資產。隨著信息技術、互聯網和大數據等技術的發展普及,各行各業都積累了很多數據,為機器學習建模提供更多的數據選擇空間。在實際建模過程中,業務人員經常會用到來自不同供應商、不同類別的數據,各方數據集中包含的特征有差別,對機器學習模型性能的貢獻度也不一樣。數據集的貢獻程度不僅有利于理解模型,在數據集交易時,也可以作為數據定價的一種參考指標。甲方愿意為貢獻度高的數據集花更多的成本,乙方也會對高貢獻度的數據索要更高的價格。
當前有訓練數據集中單個特征的重要性的計算方法,但是沒有對于多方數據建模時,評價各方訓練數據集重要程度的方法。因此,如何計算各方訓練數據集的貢獻度是亟待解決的問題。
發明內容
本發明的主要目的在于提供一種訓練數據集的貢獻度計算方法、裝置、設備及存儲介質,旨在解決現有的如何計算各方訓練數據集的貢獻度的技術問題。
為實現上述目的,本發明提供一種訓練數據集的貢獻度計算方法,所述訓練數據集的貢獻度計算方法包括步驟:
獲取訓練機器學習模型的各訓練數據集;
計算所述訓練數據集中各個特征的沙普利可加性模型解釋方法SHAP目標值;
根據所述訓練數據集中各個特征的SHAP目標值計算所述訓練數據集的貢獻度。
優選地,所述計算所述訓練數據集中各個特征的SHAP目標值的步驟包括:
計算所述訓練數據集中各個特征對應的SHAP值,計算各個特征對應的SHAP值的絕對值,得到各個特征對應的SHAP絕對值;
將所述訓練數據集中各個特征確定為目標特征,根據所述目標特征在不同訓練數據集中的SHAP絕對值得到所述目標特征對應的SHAP目標值。
優選地,所述根據所述目標特征在不同訓練數據集中的SHAP絕對值得到所述目標特征對應的SHAP目標值的步驟包括:
確定所述目標特征在不同訓練數據集中的SHAP絕對值,計算所述目標特征在不同訓練數據集中SHAP絕對值對應的SHAP平均值;
將所述SHAP平均值確定為所述目標特征對應的SHAP目標值。
優選地,所述計算所述訓練數據集中各個特征對應的SHAP值的步驟包括:
計算所述訓練數據集中各個特征對應的邊際收益期望;
根據所述邊際收益期望計算各所述邊際收益期望對應特征的SHAP值,以得到所述訓練數據集中各個特征對應的SHAP值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123970.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





