[發明專利]一種支持多源數據的自動化監督性學習方法在審
| 申請號: | 201710576402.X | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107516135A | 公開(公告)日: | 2017-12-26 |
| 發明(設計)人: | 尹建偉;范子琨;鄧水光;李瑩;吳健;吳朝暉 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00;G06N3/00;G06K9/62;G06K9/46 |
| 代理公司: | 杭州天勤知識產權代理有限公司33224 | 代理人: | 王琛 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 支持 數據 自動化 監督 性學 方法 | ||
1.一種支持多源數據的自動化監督性學習方法,包括如下步驟:
(1)對輸入的結構化數據進行預處理,得到訓練集數據和驗證集數據;
(2)根據目標特征利用貝葉斯優化器為結構化數據配置最優的機器學習管道,該管道包含特征工程以及預測模型所確定采用的算子組合;
(3)將訓練集數據輸入至所述機器學習管道,通過遺傳算法以及平衡準確率對該機器學習管道中各算子的超級參數進行調優并保存。
2.根據權利要求1所述的自動化監督性學習方法,其特征在于:所述步驟(1)中對結構化數據進行預處理的過程依次包括數據轉換、數據清洗以及數據劃分;其中,數據轉換是指將不同格式的結構化數據統一轉換為CSV格式并將數據中的具體特征編碼成數值形式;數據清洗是指對結構化數據中的缺失值按均值補全并去除其中重復的數據記錄;數據劃分是指將結構化數據中數據記錄分成一份驗證集和多份訓練集。
3.根據權利要求1所述的自動化監督性學習方法,其特征在于:所述特征工程依次包括特征預處理、特征構建以及特征選擇;其中,特征預處理有5種實施方法:標準化、歸一化、正則化、二值化以及不做處理,特征構建有4種實施方法:特征編碼、多項式生成、降維以及不做處理,特征選擇有3種實施方法:基于單變量的特征選擇、基于卡方檢驗的特征選擇以及基于互信息熵的特征選擇;每一環節允許有1~3種實施方法共同作用,每一種實施方法至少具有一種算子選擇。
4.根據權利要求1所述的自動化監督性學習方法,其特征在于:所述預測模型采用針對離散值的分類算法或采用針對連續值的回歸算法;其中,分類算法又分為二分類和多分類兩種,分類算法和回歸算法均具有多種算子選擇。
5.根據權利要求3所述的自動化監督性學習方法,其特征在于:所述步驟(2)中利用貝葉斯優化器為結構化數據配置最優的機器學習管道,具體過程如下:
2.1根據目標特征為特征預處理、特征構建、特征選擇以及預測模型每一環節設定函數邊界,如每一環節只允許有1~3種實施方法共同作用,多分類算法能夠實現二分類問題,但二分類算法無法實現多分類問題;
2.2利用貝葉斯優化器中的開源引擎SMAC建立高斯過程,并從所有可能的算子組合中初始采樣50個點,每個點即對應一機器學習管道,這些點均服從多變量的高斯分布;
2.3根據高斯分布的特性計算這些點的均值和方差,并根據以下收獲函數AF采樣下一批50個點,直至收獲函數AF達到最大;
AF=μ(x)+β1/2σ(x)
其中:x為由當前采樣得到50個點組成的集合,μ(x)和σ(x)分別為集合x的均值和方差,β為權重系數;
2.4對于最終采樣得到的50個點,利用驗證集數據計算每個點對應的平衡準確率,取平衡準確率最大的點作為最優的機器學習管道。
6.根據權利要求1所述的自動化監督性學習方法,其特征在于:所述步驟(3)中對機器學習管道中各算子的超級參數進行調優,具體過程如下:
3.1根據各算子超級參數的取值范圍,利用開源遺傳算法引擎Deap生成100組超參序列作為第一代種群,所述超參序列包含機器學習管道中各算子所有超級參數的具體值;
3.2利用訓練集數據分別在這100組超參序列下通過特征工程訓練預測模型,并利用驗證集數據計算對應預測模型的平衡準確率;
3.3根據平衡準確率對這100組超參序列從大到小進行排列,使用NSGA-II算法從中選取出最優的20組超參序列;
3.4將選取出的20組超參序列復制5份得到100組超參序列,對這100組超參序列按5%、5%、30%、30%、30%進行劃分,使其中5%的超參序列與另外5%的超參序列進行雜交,使其中30%的超參序列進行單點變異,使另外30%的超參序列進行插入變異,使剩下30%的超參序列進行收縮變異,經雜交變異后得到的100組超參序列即為第二代種群;
3.5根據步驟3.2~3.4進行迭代并更新每一代的Pareto效率值,直至找到Pareto最優解所對應的一代種群,并選取這代種群中平衡準確率最大的一組超參序列作為最優結果并保存。
7.根據權利要求6所述的自動化監督性學習方法,其特征在于:所述平衡準確率的計算表達式為:f=(xrecall+xprecise)/2;其中,f為平衡準確率,xrecall和xprecise分別為驗證集數據輸入至預測模型得到的召回率和準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710576402.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于多款電源型號的電源控制板
- 下一篇:配電房智能遠程控制裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





