[發明專利]一種基于進化算法的深度集成結構搜索方法在審
| 申請號: | 202010193425.4 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111368152A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 朱光輝 | 申請(專利權)人: | 江蘇鴻程大數據技術與應用研究院有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06N3/12;G06N20/20 |
| 代理公司: | 北京聯瑞聯豐知識產權代理事務所(普通合伙) 11411 | 代理人: | 周超 |
| 地址: | 211500 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 進化 算法 深度 集成 結構 搜索 方法 | ||
本發明公開了一種基于進化算法的深度集成結構搜索方法,包括如下步驟:S1:初始化結構種群;S2:進化階段;進化階段中重復多個進化步,每個進化步中,算法從種群中選取S個個體;S3:比較S個個體的性能,將性能最優的個體進行變異產生新的個體,并將孩子個體評估并加入種群;S4:將具有最大年代的個體從種群中移除;S5:所有個體的年代增長1,進入下一個進化步,如此往復直至進化步數達到指定值,本發明借助進化算法對深度集成學習結構和超參數進行統一搜索,可以針對不同任務適配表現更優異的深度集成學習結構,實驗結果表明,本發明針對深度集成學習結構進行自動化搜索,能獲得相比深度森林更優異的深度集成學習模型。
技術領域
本發明涉及深度集成學習、自動化機器學習技術領域,具體為一種基于進化算法的深度集成結構搜索方法。
背景技術
在機器學習任務中,具有深度結構的模型往往能夠在復雜任務中得到較好的學習效果。舉例而言,深度神經網絡,通過深度結構來學習數據的表征,在許多領域中取得了巨大成功,尤其是數據的原始表示離適合學習的表示相差較遠時,例如圖像處理、自然語言處理、語音處理等。但是,仍然有大量的機器學習任務,其原始數據樣本是離散的、表格型和有結構的,例如點擊率預測數據、欺詐交易檢測數據以及諸多的工業數據等。對于這類數據,深度神經網絡并不比傳統的機器學習算法要優越,反而一些傳統樹型集成算法,例如XGBoost、LightGBM、GBDT以及隨機森林算法等常常擁有更好的性能。原因主要有三,首先表格型數據規模一般較小,DNN不適用。其次,對于這類數據往往無法直接進行反向傳播。最后,這類數據不像圖像、序列數據集那樣,數據原始表示和其內在的模式相差較遠。這些表格型數據集往往包含了人工提取的良好特征,其特征與機器學習要挖掘的內在模式聯系較大;對于此類數據集,深度神經網絡的表征學習能力得不到充分發揮。
盡管如此,深度神經網絡中的深度結構仍是模型處理復雜任務一個關鍵所在,因此,針對表格型數據,借鑒深度神經網絡的“深度”思想,周志華等人提出了深度森林。由于其動態增長的深度集成結構,深度森林在大部分的任務中實現了比其他樹型集成方法更高的準確率。但是,有一些關鍵的問題仍然值得討論。
首先,已有的深度集成算法模型需要依賴人工構建。以深度森林為例,首先需要選擇隨機森林作為每一層的基分類器。其次,每一層森林的類型和個數都需要預先設置。對于普通的機器學習工作者,設計高效的深度集成算法模型技術門檻較高。另外,深度森林是針對于分類問題而設計,應用范圍具有局限性,對于回歸等其他任務,設計一個優異的深度集成模型仍然具有較高的門檻,往往需要花費大量人力與時間成本。
因此,針對不同的數據分析任務,需要能夠自動化地搜索最優的深度集成學習結構,讓普通的機器學習工作者也能針對具體任務設計出性能優越的深度集成學習模型,為現實世界大數據智能化分析帶來重要的實際應用價值。
據本文目前所知,學術界和工業界大量研究都是針對于深度神經網絡結構搜索,對于深度集成學習的自動化設計問題,缺乏關鍵技術研究。為此,本發明將自動化機器學習領域的前沿技術與深度集成學習相結合,通過自動化機器學習方法來對深度集成學習結構進行高效的搜索。
發明內容
本發明的目的在于提供一種基于進化算法的深度集成結構搜索方法,能夠針對不同任務,對深度集成學習結構進行自動化搜索,用以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種基于進化算法的深度集成結構搜索方法,包括如下步驟:
S1:初始化結構種群,種群中包含P個深度集成學習結構,其中,P個所述深度集成學習結構標識有唯一DNA編碼;在初始化階段,首先隨機選擇P個結構,然后在目標數據集上進行評估得出性能,將它們加入種群;
S2:進化階段;進化階段中重復多個進化步,每個進化步中,算法從種群中選取S個個體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇鴻程大數據技術與應用研究院有限公司,未經江蘇鴻程大數據技術與應用研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010193425.4/2.html,轉載請聲明來源鉆瓜專利網。





