[發明專利]一種基于特征維度的機器學習模型優化的方法及裝置在審
| 申請號: | 202211725208.0 | 申請日: | 2022-12-30 |
| 公開(公告)號: | CN115905875A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 金肖;谷曉磊 | 申請(專利權)人: | 浙江大學嘉興研究院 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214 |
| 代理公司: | 杭州中成專利事務所有限公司 33212 | 代理人: | 李亦慈;唐銀益 |
| 地址: | 314031 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 維度 機器 學習 模型 優化 方法 裝置 | ||
1.一種基于特征維度的機器學習模型優化方法,其特征在于,包括:
獲得至少2個以上特征維度與1個標簽維度的數據;
通過皮爾遜相關系數算法獲得每個特征維度和標簽維度數據的相關性系數;
根據所獲得每個特征維度和標簽維度數據的相關性系數刪除所有小于閾值的所有特征維度,得到篩選后剩余的特征維度;所述的篩選后剩余的特征維度為至少2個以上;
根據篩選后剩余的特征維度展開隨機排列組合,組合為不同的特征維度組合,每一種特征維度組合的數據與所對應的標簽維度數據都構成一種新的數據集,即組合為不同的數據集;
根據所形成新的數據集劃分為至少2個以上不同的訓練集和測試集;
根據劃分好的訓練集和測試集,每一對訓練集和測試集都通過K折交叉驗證的方式訓練機器學習模型,得到K個預測結果;
根據不同的數據集統計出當前特征維度組合內的特征維度個數;
根據K個預測結果計算出當前機器學習模型的查準率、查全率和F1值;
根據訓練集的特征維度個數和模型的F1值,篩選掉異常的F1值后,選擇出剩余F1值最大的特征維度個數n;
根據劃分為至少2個以上不同的訓練集和測試集中的所有訓練集中的特征維度和所有模型的F1值進行統計多個訓練集的特征維度,得到多個Top榜單;
根據多個Top榜單的數據,結合權重公式,計算出每一種特征維度的重要性系數;
根據重要性系數從大到小排序,最終確定前n個特征維度作為機器學習模型訓練的數據集。
2.根據權利要求1所述的基于特征維度的機器學習模型優化方法,其特征在于,所述的根據所形成新的數據集劃分為至少2個以上不同的訓練集和測試集,具體為:
在數據集劃分為至少2個以上不同的訓練集和測試集之前,根據數據的應用場景,將數據先依據其特征列細分到組,以組為單位進行劃分不同的訓練集和測試集,通過雙重交叉驗證的方式可以從有限的數據中獲取盡可能多的有效信息以及一定程度上減少機器學習模型的過擬合。
3.根據權利要求1或2所述的基于特征維度的機器學習模型優化方法,其特征在于,所述的根據訓練集的特征維度個數和模型的F1值,篩選掉異常的F1值后,選擇出剩余F1值最大的特征維度個數n,具體為:
將K折交叉驗證訓練模型所產生的k個模型F1值計算出其均值作為當前特征維度組合所生成模型的性能指數,繪制特征維度組合中的維度個數與機器學習模型的性能指數的分布情況;
分析繪制的散點分布圖,考慮到機器學習模型的穩定性,需要去除掉圖形中的離群點,然后統計每一種特征維度個數中TopN(N2)的機器學習模型性能指標值,繪制特征維度組合中的維度個數與機器學習模型的TopN(N2)平均性能指標值的變化趨勢;
分析繪制的折線趨勢圖,考慮到機器學習模型的準確率,選擇TopN(N2)平均性能指數偏高的特征個數。
4.根據權利要求3所述的基于特征維度的機器學習模型優化方法,其特征在于,所述的根據劃分為至少2個以上不同的訓練集和測試集中的所有訓練集中的特征維度和所有模型的F1值進行統計多個訓練集的特征維度,得到多個Top榜單,具體為:
在確定了特征個數n之后,下一步需要篩選出前n個特征維度作為機器學習模型的輸入維度;
以機器學習模型的性能指標值作為從高到低的排序依據,統計出M檔的特征維度組合中的特征維度占有率,M檔中每檔為前N%的排序結果(M1,N100且相鄰檔間間隔大于1%)。
5.根據權利要求1所述的基于特征維度的機器學習模型優化方法,其特征在于,所述的根據多個Top榜單的數據,結合權重公式,計算出每一種特征維度的重要性系數,具體為:
根據每個Top榜單中的特征維度占有率,代入到分配權重公式中計算出最終的特征維度重要性排行榜,選擇出性能最優的特征維度組合;
上述的權重公式如下所示:
其中ω0是特征維度的最終性能指數,Ci是Top榜單中特征維度的占比,L是榜單的數量,每一個特征維度都會計算出其對應的ω0,通過比較ω0值的大小,選擇出ω0值較大的組合,即性能較優的特征維度組合。
6.一種基于特征維度的機器學習模型優化方法,其特征在于,包括:
第一處理模塊:用于獲得至少2個以上特征維度與1個標簽維度的數據;
第一獲得模塊:用于通過皮爾遜相關系數算法獲得每個特征維度和標簽維度數據的相關性系數;
第一選擇模塊:用于根據所獲得每個特征維度和標簽維度數據的相關性系數刪除所有小于閾值的所有特征維度,得到篩選后剩余的特征維度;所述的篩選后剩余的特征維度為至少2個以上;
第一組合模塊:用于根據篩選后剩余的特征維度展開隨機排列組合,組合為不同的特征維度組合,每一種特征維度組合的數據與所對應的標簽維度數據都構成一種新的數據集,即組合為不同的數據集;根據所形成新的數據集劃分為至少2個以上不同的訓練集和測試集;
第一訓練模塊:用于根據劃分好的訓練集和測試集,每一對訓練集和測試集都通過K折交叉驗證的方式訓練機器學習模型,得到K個預測結果;
第一計算模塊:用于根據不同的數據集統計出當前特征維度組合內的特征維度個數;根據K個預測結果計算出當前機器學習模型的查準率、查全率和F1值;
第二選擇模塊:用于根據訓練集的特征維度個數和模型的F1值,篩選掉異常的F1值后,選擇出剩余F1值最大的特征維度個數n;
第二計算模塊:用于根據劃分為至少2個以上不同的訓練集和測試集中的所有訓練集中的特征維度和所有模型的F1值進行統計多個訓練集的特征維度,得到多個Top榜單;根據多個Top榜單的數據,結合權重公式,計算出每一種特征維度的重要性系數;
第三選擇模塊:用于根據重要性系數從大到小排序,最終確定前n個特征維度作為機器學習模型訓練的數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學嘉興研究院,未經浙江大學嘉興研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211725208.0/1.html,轉載請聲明來源鉆瓜專利網。





