[發明專利]機器學習超參數重要性評估方法、系統及存儲介質有效
| 申請號: | 201810270934.5 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108446741B | 公開(公告)日: | 2020-01-07 |
| 發明(設計)人: | 孫運雷;魏倩;孔言 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 37221 濟南圣達知識產權代理有限公司 | 代理人: | 黃海麗 |
| 地址: | 266580 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類算法 歷史數據 目標數據 數據集 重要性評估 評估 存儲介質 機器學習 遞增序列 聚類算法 距離獲得 距離目標 性能數據 黑盒 排序 自動化 遞增 配置 | ||
1.基于機器學習超參數重要性評估的待分類數據分類系統,其特征是,包括:
歷史數據集獲取模塊,其被配置為:從開放式機器學習環境OpenML中獲取與目標數據集類型相似的若干新數據集,并對每個新數據集提取元特征,使得每個新數據集都用元特征向量來表示;
從開放式機器學習環境OpenML中收集待評估分類算法在不同超參數配置下性能的數據;
將每個新數據集的元特征向量以及不同超參數配置對應的性能數據存儲于對應的歷史數據集中;
距離序列獲取模塊,其被配置為:提取目標數據集的元特征向量來表示目標數據集,計算目標數據集元特征向量與歷史數據集元特征向量之間的距離,獲得目標數據集與每個歷史數據集之間距離由近至遠的距離序列;
輸出模塊,其被配置為:對距離目標數據集最近的前f個歷史數據集依次執行Relief-Cluster算法:通過Relief算法得到的每類超參數的權重,進一步計算每類超參數的平均權重,利用每類超參數的平均權重初步得到每類超參數重要性權重排序;利用聚類算法進一步驗證超參數重要性評估的準確性;最后,得到待評估分類算法的超參數重要性排序;
分類模塊,其被配置為:根據得到的待評估分類算法的超參數重要性排序,對重要性排序靠前的若干個參數進行設置,然后,利用設置好參數的分類算法對待分類數據進行分類。
2.如權利要求1所述的系統,其特征是,所述歷史數據集獲取模塊中,每個數據集Di被描述為由F個元特征表示的向量
3.如權利要求1所述的系統,其特征是,所述歷史數據集獲取模塊中,元特征,包括:簡單的元特征、數據集的統計元特征和重要性元特征;
所述簡單的元特征,包括:數據集樣本數量、特征數量、類別數量或缺失值數量;
所述數據集的統計元特征,包括:平均值、方差或距離向量的峰度;
所述重要性元特征,包括:在數據集上運行機器學習算法獲得的性能。
4.如權利要求1所述的系統,其特征是,所述歷史數據集獲取模塊中待評估分類算法在不同超參數配置下的性能,包括:錯誤分類率或者RMSE。
5.如權利要求1所述的系統,其特征是,利用元特征向量之間的距離來衡量目標數據集DN+1與歷史數據集Di之間的距離dpn(DN′,Di):
dpn(DN′,Di)=||VN′-Vi||pn
其中,VN′表示目標數據集DN′的元特征向量,Vi表示歷史數據集Di的元特征向量,pn表示p范數;
通過目標數據集與歷史數據集元特征向量之間的距離比較,得到歷史數據集與目標數據集距離由近至遠的排序序列π(1),...,π(N)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810270934.5/1.html,轉載請聲明來源鉆瓜專利網。





