[發(fā)明專利]一種針對(duì)分類問題的進(jìn)化集成學(xué)習(xí)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110038912.8 | 申請(qǐng)日: | 2021-01-12 |
| 公開(公告)號(hào): | CN112734051A | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 陳皓;張國(guó)鑫;賈蓉 | 申請(qǐng)(專利權(quán))人: | 西安郵電大學(xué) |
| 主分類號(hào): | G06N20/20 | 分類號(hào): | G06N20/20;G06N3/12;G06N3/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710161 陜西*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 分類 問題 進(jìn)化 集成 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種針對(duì)分類問題的進(jìn)化集成學(xué)習(xí)方法,本發(fā)明屬于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域。其步驟為:首先,針對(duì)分類問題生成一組基于樹形編碼的基學(xué)習(xí)器群體以及對(duì)應(yīng)的基于二進(jìn)制編碼的集成器群體;接著,進(jìn)行基學(xué)習(xí)器群體的多目標(biāo)進(jìn)化搜索和集成學(xué)習(xí)器群體的組合優(yōu)化搜索;通過將兩個(gè)層次的進(jìn)化搜索過程進(jìn)行結(jié)合及彼此信息反饋,達(dá)到構(gòu)造高質(zhì)量的基學(xué)習(xí)器群體并產(chǎn)生高準(zhǔn)確率的集成學(xué)習(xí)器個(gè)體的計(jì)算目標(biāo)。本發(fā)明中兩個(gè)層次的搜索優(yōu)化進(jìn)程可通過進(jìn)化迭代機(jī)制動(dòng)態(tài)地結(jié)合起來,再通過彼此之間的信息交流實(shí)現(xiàn)協(xié)同優(yōu)化,達(dá)到促使基學(xué)習(xí)器群體不斷演變并在個(gè)體的高質(zhì)量和群體的多樣性間保持平衡,同時(shí)實(shí)現(xiàn)對(duì)集成學(xué)習(xí)器結(jié)構(gòu)的全局優(yōu)化。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,具體包含了基于樹形編碼的基學(xué)習(xí)器搜索群體和基于二進(jìn)制編碼的集成學(xué)習(xí)器搜索群體。兩個(gè)層次的搜索優(yōu)化進(jìn)程可通過進(jìn)化迭代機(jī)制動(dòng)態(tài)地結(jié)合起來,再通過彼此之間的信息交流實(shí)現(xiàn)協(xié)同優(yōu)化。這種架構(gòu)可促使基學(xué)習(xí)器群體不斷演變,并在個(gè)體的高質(zhì)量和群體的多樣性間保持平衡,同時(shí)實(shí)現(xiàn)對(duì)集成學(xué)習(xí)器結(jié)構(gòu)的全局優(yōu)化。此外,這種計(jì)算架構(gòu)有利于降低集成學(xué)習(xí)器構(gòu)造過程對(duì)人為設(shè)計(jì)決策的依賴,轉(zhuǎn)而通過數(shù)據(jù)驅(qū)動(dòng)的模式實(shí)現(xiàn)集成學(xué)習(xí)器的自動(dòng)化生成。
背景技術(shù)
隨著信息技術(shù)的飛速發(fā)展,在如今的大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈爆炸式增長(zhǎng),呈現(xiàn)出海量、復(fù)雜多樣以及變化快等特征。如何從海量數(shù)據(jù)中高效地尋找出有價(jià)值信息背后的關(guān)聯(lián)受到人們?cè)絹碓蕉嗟年P(guān)注。
集成學(xué)習(xí)是數(shù)據(jù)挖掘方法的一種,適合于處理復(fù)雜的高維數(shù)據(jù)。傳統(tǒng)集成學(xué)習(xí)器的構(gòu)造過程大體可分為兩步:首先產(chǎn)生一定數(shù)量的以決策樹為代表的基學(xué)習(xí)器,然后通過對(duì)基學(xué)習(xí)器進(jìn)行疊加構(gòu)成集成學(xué)習(xí)器。傳統(tǒng)使用貪心算法所搜索到的基學(xué)習(xí)器結(jié)構(gòu)通常是局部最優(yōu)而不是全局最優(yōu),而基學(xué)習(xí)器的疊加過程只能單向遞增,冗余度的增大會(huì)影響基學(xué)習(xí)器群體的多樣性,同時(shí)人為的設(shè)計(jì)決策也會(huì)影響構(gòu)造結(jié)果。此外,通常認(rèn)為集成模型中各基學(xué)習(xí)器之間的多樣性越高則集成學(xué)習(xí)的泛化性能越好,但傳統(tǒng)集成模型構(gòu)造機(jī)制中缺乏評(píng)測(cè)以及維持各基學(xué)習(xí)器之間多樣性的機(jī)制。另一方面,傳統(tǒng)集成模型通過獨(dú)立或按序生成不同的基學(xué)習(xí)器,再通過相互疊加集成來達(dá)到更佳的計(jì)算效果。這種模式雖然可以提高集成模型的構(gòu)造效率和泛化性能,但單個(gè)基學(xué)習(xí)器之間的交互和協(xié)作優(yōu)勢(shì)沒有得到充分的發(fā)揮,并且會(huì)存在冗余結(jié)構(gòu)。選擇集成機(jī)制一定程度上有利于在不影響泛化性能的基礎(chǔ)上降低集成模型的復(fù)雜度,但這種機(jī)制在基學(xué)習(xí)器生成時(shí)并沒有參考其與其他基學(xué)習(xí)器組合形成集成學(xué)習(xí)器的組合效應(yīng)。特別是依然無法對(duì)基學(xué)習(xí)器自身進(jìn)行結(jié)構(gòu)調(diào)整,且基學(xué)習(xí)器之間可能存在的組合效果要直到完整的集成學(xué)習(xí)器產(chǎn)生之后才能被利用。因此只能被動(dòng)地對(duì)已存在的基學(xué)習(xí)器進(jìn)行組合優(yōu)化,而無法主動(dòng)地尋找更為有效的基學(xué)習(xí)器組合。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有集成學(xué)習(xí)存在的問題,本文發(fā)明了一種針對(duì)分類問題的雙進(jìn)化架構(gòu)自動(dòng)集成學(xué)習(xí)方法,通過建立對(duì)基學(xué)習(xí)器群體的進(jìn)化搜索和在基學(xué)習(xí)器群體進(jìn)化基礎(chǔ)之上的集成學(xué)習(xí)器群體進(jìn)化兩個(gè)優(yōu)化過程,使集成器群體與基學(xué)習(xí)器群體的不斷交互協(xié)同構(gòu)造生成集成模型。
為實(shí)現(xiàn)上述目的,本發(fā)明的具體技術(shù)方案如下:
步驟1:初始化基學(xué)習(xí)器個(gè)體種群,可表示為Nt是基學(xué)習(xí)器個(gè)體數(shù)量,分類樹初始最小深度為Dmin,最大深度為Dmax,節(jié)點(diǎn)生成概率為 Pnode;每個(gè)節(jié)點(diǎn)Node由一個(gè)四元組表示,每個(gè)組件都是一個(gè)數(shù)值,可以在進(jìn)化過程中進(jìn)行修改。四元組中第一個(gè)元素是分裂屬性的整數(shù)索引;第二個(gè)是實(shí)數(shù),表示閾值的分割值;第三個(gè)是整數(shù),1表示該節(jié)點(diǎn)是終端節(jié)點(diǎn),0表示該節(jié)點(diǎn)是非終端節(jié)點(diǎn);第四個(gè)是預(yù)測(cè)的分類標(biāo)簽值。具體為:
步驟1.1:生成根節(jié)點(diǎn),從訓(xùn)練樣本中隨機(jī)選擇一個(gè)特征并隨機(jī)選擇該特征的分割閾值作為當(dāng)前節(jié)點(diǎn)的內(nèi)部屬性;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安郵電大學(xué),未經(jīng)西安郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110038912.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種基因內(nèi)含子進(jìn)化重構(gòu)裝置及方法
- 流感H5疫苗
- 基于云進(jìn)化跟蹤太陽能路燈最大功率點(diǎn)的方法及系統(tǒng)
- AprL-進(jìn)化枝蛋白酶變體及其用途
- 一種基于可進(jìn)化脈沖神經(jīng)網(wǎng)絡(luò)的鳶尾花卉分類方法和裝置
- 一種基于環(huán)境性能需求的產(chǎn)品進(jìn)化設(shè)計(jì)決策方法
- 一種分組進(jìn)化的高維粒子群尋優(yōu)方法
- 基于進(jìn)化樹的模擬生物教學(xué)方法以及裝置
- 一種印刷廢氣進(jìn)化處理裝置
- 一種基于進(jìn)化樹的創(chuàng)新設(shè)計(jì)教學(xué)裝置





