[發明專利]機器學習超參數重要性評估方法、系統及存儲介質有效
| 申請號: | 201810270934.5 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108446741B | 公開(公告)日: | 2020-01-07 |
| 發明(設計)人: | 孫運雷;魏倩;孔言 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 37221 濟南圣達知識產權代理有限公司 | 代理人: | 黃海麗 |
| 地址: | 266580 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類算法 歷史數據 目標數據 數據集 重要性評估 評估 存儲介質 機器學習 遞增序列 聚類算法 距離獲得 距離目標 性能數據 黑盒 排序 自動化 遞增 配置 | ||
本發明公開了機器學習超參數重要性評估方法、系統及存儲介質,獲取OpenML中不同的數據集,并提取元特征來表示每個數據集,同時收集待評估分類算法在不同超參配置下性能的數據;提取元特征來表示使用的目標數據集,并通過計算元特征之間的距離獲得目標數據集與歷史數據集之間距離的遞增序列;使用待評估分類算法不同超參的性能數據來評估超參重要性,根據歷史數據集與目標數據集距離遞增的有序序列,對距離目標數據集較近的前m個歷史數據集依次執行提出的Relief和聚類算法,最終獲得待評估分類算法的超參重要性排序并指導的自動化調參過程。本發明對于分類算法黑盒的超參調整給予一定的指導,從而達到節省時間,提高效率的目的。
技術領域
本發明是機器學習超參數重要性評估方法、系統及存儲介質。
背景技術
機器學習為數據處理和數據分類提供了重要的技術支撐,然而模型選擇和調參依然是困擾用戶的兩大難題,于是自動化機器學習系統應運而生。自動化機器學習系統利用自動化機器學習算法達到了自動化數據預處理,自動化選擇算法,自動化調參的目的,提高了數據分類預測的準確性,同時將用戶從選擇算法和反復調參的繁重任務中解脫出來。
由于自動化機器學習的核心是自動化算法選擇及自動化超參配置,因此該系統將機器學習過程歸約成了算法選擇和超參優化(Combined Algorithm Selection andHyper-parameter optimization,CASH)問題。CASH問題即把算法的選擇當做根層次的新的超參數,從而將選擇算法和超參數值的問題映射到選擇超參值的問題。通過將數據預處理和特征選擇技術作為超參數,系統可以自動選擇數據預處理和特征選擇技術。最終歸結為的超參優化問題可以通過經典的貝葉斯優化算法找到最優解,從而達到提升數據分類預測精度的效果。
然而目前的自動化機器學習系統的超參配置模塊的配置過程全憑經驗,或者通過反復迭代得到最后的結果來對若干個超參數的配置進行一一調整,這樣存在的缺陷是:浪費機器學習的時間,而且反復迭代也浪費計算機資源,不分重要性地對所有超參數的配置進行調整會浪費用戶的時間和精力。
發明內容
本發明是機器學習超參數重要性評估方法、系統及存儲介質,所要解決的技術問題是如何準確評估機器學習算法的超參重要性,并將其用于指導自動化超參配置以及增強超參配置的可解釋性問題。
作為本發明的第一方面:
機器學習超參數重要性評估方法,包括:
步驟(1):從開放式機器學習環境OpenML中獲取與目標數據集類型相似的若干新數據集,并對每個新數據集提取元特征向量,使得每個新數據集都用元特征向量來表示;
從開放式機器學習環境OpenML中收集待評估分類算法在不同超參數配置下性能的數據;
將每個新數據集的元特征向量以及不同超參數配置對應的性能數據存儲于對應的歷史數據集中;
步驟(2):提取目標數據集的元特征向量來表示目標數據集,計算目標數據集元特征向量與歷史數據集元特征向量之間的距離,獲得目標數據集與每個歷史數據集之間距離由近至遠的距離序列;
步驟(3):對距離目標數據集最近的前f個歷史數據集依次執行Relief-Cluster算法:通過Relief算法得到的每類超參數的權重,進一步計算每類超參數的平均權重,利用每類超參數的平均權重初步得到每類超參數重要性權重排序;利用聚類算法進一步驗證超參數重要性評估的準確性;最后,得到待評估分類算法的超參數重要性排序。
所述機器學習超參數重要性評估方法,包括以下步驟:
步驟(4):根據得到的待評估分類算法的超參數重要性排序,對重要性排序靠前的若干個參數進行設置,然后,利用設置好參數的分類算法對待分類數據進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810270934.5/2.html,轉載請聲明來源鉆瓜專利網。





