[發(fā)明專利]一種支持多源數(shù)據(jù)的自動(dòng)化監(jiān)督性學(xué)習(xí)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710576402.X | 申請(qǐng)日: | 2017-07-14 |
| 公開(kāi)(公告)號(hào): | CN107516135A | 公開(kāi)(公告)日: | 2017-12-26 |
| 發(fā)明(設(shè)計(jì))人: | 尹建偉;范子琨;鄧水光;李瑩;吳健;吳朝暉 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06N99/00 | 分類號(hào): | G06N99/00;G06N3/00;G06K9/62;G06K9/46 |
| 代理公司: | 杭州天勤知識(shí)產(chǎn)權(quán)代理有限公司33224 | 代理人: | 王琛 |
| 地址: | 310013 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 支持 數(shù)據(jù) 自動(dòng)化 監(jiān)督 性學(xué) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種支持多源數(shù)據(jù)的自動(dòng)化監(jiān)督性學(xué)習(xí)方法。
背景技術(shù)
機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能,其中機(jī)器學(xué)習(xí)分為了監(jiān)督性學(xué)習(xí)和無(wú)監(jiān)督性學(xué)習(xí)兩種。目前機(jī)器學(xué)習(xí)的發(fā)展已經(jīng)進(jìn)入全新的階段,研究的領(lǐng)域也獲得空前的擴(kuò)大,包括專家系統(tǒng)、認(rèn)知模擬、規(guī)劃和問(wèn)題求解、數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息服務(wù)、圖象識(shí)別、故障診斷、自然語(yǔ)言理解、機(jī)器人和博弈等領(lǐng)域。
隨著機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器學(xué)習(xí)仍然是相對(duì)很困難的問(wèn)題。毫無(wú)疑問(wèn),通過(guò)研究來(lái)推進(jìn)機(jī)器學(xué)習(xí)算法的進(jìn)步會(huì)很困難,這需要?jiǎng)?chuàng)造力、實(shí)驗(yàn)以及堅(jiān)持。由于現(xiàn)成的算法、模型可以很好的為你提供服務(wù),這就阻礙了機(jī)器學(xué)習(xí)的發(fā)展。其中機(jī)器學(xué)習(xí)的難題之一就是建立直覺(jué)。建立直覺(jué)的意思是采用某種工具來(lái)應(yīng)對(duì)問(wèn)題,這就需要知道可用的算法、模型、風(fēng)險(xiǎn)權(quán)衡以及每一個(gè)限制條件,這時(shí)候自動(dòng)化機(jī)器學(xué)習(xí)成為了人們感興趣的話題,有了自動(dòng)化的機(jī)器學(xué)習(xí),能夠自動(dòng)的選擇算法、超參調(diào)整、迭代建模以及模型評(píng)價(jià),這樣就能夠解決機(jī)器學(xué)習(xí)過(guò)程復(fù)雜繁復(fù)的工作。
目前自動(dòng)化機(jī)器學(xué)習(xí)發(fā)展剛剛處于起步階段,大量的研究課題都處于摸索階段,整個(gè)機(jī)器學(xué)習(xí)行業(yè),還沒(méi)有利用自動(dòng)化機(jī)器學(xué)習(xí)來(lái)簡(jiǎn)化機(jī)器學(xué)習(xí)流程的產(chǎn)品;另一方面,對(duì)于數(shù)據(jù)科學(xué)家來(lái)講,他們大量的重復(fù)無(wú)聊的調(diào)參和對(duì)機(jī)器學(xué)習(xí)管道的設(shè)計(jì),使得他們急需一個(gè)能夠減輕他們工作的工具,對(duì)于清晰規(guī)范的數(shù)據(jù)集,能夠簡(jiǎn)單的設(shè)計(jì)調(diào)節(jié)出一個(gè)最佳的機(jī)器學(xué)習(xí)流程。
發(fā)明內(nèi)容
鑒于上述,本發(fā)明提供了一種支持多源數(shù)據(jù)的自動(dòng)化監(jiān)督性學(xué)習(xí)方法,其將傳統(tǒng)的數(shù)據(jù)分析流程自動(dòng)化,從根本上改進(jìn)了手動(dòng)調(diào)節(jié)機(jī)器學(xué)習(xí)管道的流程,在超參調(diào)節(jié)和管道優(yōu)化的高耦合度上,使得系統(tǒng)在監(jiān)督性學(xué)習(xí)算法上的擴(kuò)展性大大提高。
一種支持多源數(shù)據(jù)的自動(dòng)化監(jiān)督性學(xué)習(xí)方法,包括如下步驟:
(1)對(duì)輸入的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,得到訓(xùn)練集數(shù)據(jù)和驗(yàn)證集數(shù)據(jù);
(2)根據(jù)目標(biāo)特征利用貝葉斯優(yōu)化器為結(jié)構(gòu)化數(shù)據(jù)配置最優(yōu)的機(jī)器學(xué)習(xí)管道,該管道包含特征工程以及預(yù)測(cè)模型所確定采用的算子組合;
(3)將訓(xùn)練集數(shù)據(jù)輸入至所述機(jī)器學(xué)習(xí)管道,通過(guò)遺傳算法以及平衡準(zhǔn)確率對(duì)該機(jī)器學(xué)習(xí)管道中各算子的超級(jí)參數(shù)進(jìn)行調(diào)優(yōu)并保存。
所述步驟(1)中對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程依次包括數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗以及數(shù)據(jù)劃分;其中,數(shù)據(jù)轉(zhuǎn)換是指將不同格式的結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為CSV格式并將數(shù)據(jù)中的具體特征編碼成數(shù)值形式;數(shù)據(jù)清洗是指對(duì)結(jié)構(gòu)化數(shù)據(jù)中的缺失值按均值補(bǔ)全并去除其中重復(fù)的數(shù)據(jù)記錄;數(shù)據(jù)劃分是指將結(jié)構(gòu)化數(shù)據(jù)中數(shù)據(jù)記錄分成一份驗(yàn)證集和多份訓(xùn)練集。
所述特征工程依次包括特征預(yù)處理、特征構(gòu)建以及特征選擇;其中,特征預(yù)處理有5種實(shí)施方法:標(biāo)準(zhǔn)化、歸一化、正則化、二值化以及不做處理,特征構(gòu)建有4種實(shí)施方法:特征編碼、多項(xiàng)式生成、降維以及不做處理,特征選擇有3種實(shí)施方法:基于單變量的特征選擇、基于卡方檢驗(yàn)的特征選擇以及基于互信息熵的特征選擇;每一環(huán)節(jié)允許有1~3種實(shí)施方法共同作用,每一種實(shí)施方法至少具有一種算子選擇。
所述預(yù)測(cè)模型采用針對(duì)離散值的分類算法或采用針對(duì)連續(xù)值的回歸算法;其中,分類算法又分為二分類和多分類兩種,分類算法和回歸算法均具有多種算子選擇。
所述步驟(2)中利用貝葉斯優(yōu)化器為結(jié)構(gòu)化數(shù)據(jù)配置最優(yōu)的機(jī)器學(xué)習(xí)管道,具體過(guò)程如下:
2.1根據(jù)目標(biāo)特征為特征預(yù)處理、特征構(gòu)建、特征選擇以及預(yù)測(cè)模型每一環(huán)節(jié)設(shè)定函數(shù)邊界,如每一環(huán)節(jié)只允許有1~3種實(shí)施方法共同作用,多分類算法能夠?qū)崿F(xiàn)二分類問(wèn)題,但二分類算法無(wú)法實(shí)現(xiàn)多分類問(wèn)題;
2.2利用貝葉斯優(yōu)化器中的開(kāi)源引擎SMAC(Sequential Model-based Algorithm Configuration,序列化配置模型算法)建立高斯過(guò)程,并從所有可能的算子組合中初始采樣50個(gè)點(diǎn),每個(gè)點(diǎn)即對(duì)應(yīng)一機(jī)器學(xué)習(xí)管道,這些點(diǎn)均服從多變量的高斯分布;
2.3根據(jù)高斯分布的特性計(jì)算這些點(diǎn)的均值和方差,并根據(jù)以下收獲函數(shù)AF采樣下一批50個(gè)點(diǎn),直至收獲函數(shù)AF達(dá)到最大;
AF=μ(x)+β1/2σ(x)
其中:x為由當(dāng)前采樣得到50個(gè)點(diǎn)組成的集合,μ(x)和σ(x)分別為集合x(chóng)的均值和方差,β為權(quán)重系數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710576402.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 自動(dòng)化設(shè)備和自動(dòng)化系統(tǒng)
- 一種基于流程驅(qū)動(dòng)的測(cè)試自動(dòng)化方法以及測(cè)試自動(dòng)化系統(tǒng)
- 用于工業(yè)自動(dòng)化設(shè)備認(rèn)識(shí)的系統(tǒng)和方法
- 實(shí)現(xiàn)過(guò)程自動(dòng)化服務(wù)的標(biāo)準(zhǔn)化設(shè)計(jì)方法學(xué)的自動(dòng)化系統(tǒng)
- 一種日產(chǎn)50萬(wàn)安時(shí)勻漿自動(dòng)化系統(tǒng)
- 一種自動(dòng)化肥料生產(chǎn)系統(tǒng)
- 一種電氣自動(dòng)化設(shè)備自動(dòng)檢測(cè)系統(tǒng)及檢測(cè)方法
- 用于自動(dòng)化應(yīng)用的抽象層
- 一種基于虛擬化架構(gòu)的自動(dòng)化系統(tǒng)功能驗(yàn)證方法
- 自動(dòng)化測(cè)試框架自動(dòng)測(cè)試的實(shí)現(xiàn)技術(shù)
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





