[發明專利]一種基于多任務進化算法的多數據集特征選擇方法及其系統在審
| 申請號: | 202110013279.7 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112668245A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 羅喜伶;金晨;張泊宇 | 申請(專利權)人: | 北京航空航天大學杭州創新研究院 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06K9/62;G06N3/12;G06F111/04 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310051 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 進化 算法 多數 特征 選擇 方法 及其 系統 | ||
1.一種基于多任務進化算法的多數據集特征選擇方法,其特征在于,包括如下步驟:
步驟1:針對不同場景下的多回歸模型集成任務,將該任務下的數據集根據不同的場景進行數據集劃分,每一個場景均對應一個子數據集;
步驟2:初始化進化算法的環境參數及約束條件,并對子數據集中的特征進行編碼;
步驟3:針對每一個場景下的子數據集,從父代種群中選擇優異個體并形成子種群,并基于步驟2所述的進化算法生成子代種群個體;
在篩選子種群的過程中,根據父代種群中每一個個體在不同子數據集中的分類/擬合表現,在所有的子數據集中分別篩選對應數據集的優異個體;
步驟4:根據生成的子代種群個體所代表的特征,在每一個子數據集上進行回歸模型的訓練和k-折交叉檢驗,得到該特征組合下的回歸/分類模型精度;
步驟5:根據步驟4得到的回歸模型精度,結合多任務進化機制,將父代種群個體和子代種群個體融合進化,生成一個規模與父代相同,但保留父代和子代中優異個體的新種群;
步驟6:重復步驟3至步驟5,直至達到總迭代次數;
步驟7:輸出每個子數據集的特征選擇結果及回歸模型,完成針對不同場景下的多回歸模型集成任務。
2.如權利要求1所述的基于多任務進化算法的多數據集特征選擇方法,其特征在于,所述進化算法的環境參數包括交叉變異率、迭代次數、種群規模、數據集數量、k-折參數。
3.如權利要求1所述的基于多任務進化算法的多數據集特征選擇方法,其特征在于,所述的步驟3中,以每個個體在不同子數據集的分類/擬合精度作為依據,對所有種群個體進行排序,若某個個體在多個子數據集表現優異,則其會被多個子數據集都選中,從而擴散其優異基因并產生后代,引導進化過程;反之,無法進入子種群,失去產生后代的機會,進而被淘汰。
4.如權利要求1所述的基于多任務進化算法的多數據集特征選擇方法,其特征在于,步驟5所述的多任務進化機制,具體為:
步驟5.1:根據父代種群個體和子代種群個體在所有子數據集對應的回歸模型中的分類/擬合精度,計算每一個個體的初始適應度值;
步驟5.2:根據父代種群個體和子代種群個體在所有子數據集對應的回歸模型中的分類/擬合精度、以及每一個個體的初始適應度值,計算得到每一個個體基于適應度排序的漢明距離;
步驟5.3:對步驟5.1得到的初始適應度值和步驟5.2得到的漢明距離進行歸一化,將歸一化后的乘積作為最終適應度值;
步驟5.4:根據最終適應度值對父代種群個體和子代種群個體進行排序,選擇前Np個個體作為新的父代種群;其中,Np為初始化父代種群中的個體數量。
5.如權利要求4所述的基于多任務進化算法的多數據集特征選擇方法,其特征在于,所述的初始適應度值計算公式為:
其中,rij是個體i在子數據集j上的分類/擬合精度在所有個體中的排名,M表示子數據集的數量,fi表示個體i的初始適應度值。
6.如權利要求4所述的基于多任務進化算法的多數據集特征選擇方法,其特征在于,所述的步驟5.2只計算適應度值比當前個體Xi優秀的個體的漢明距離,計算公式為:
其中,Q是數據集中總的特征數目,為種群個體i在第k個特征上的值,若k=1,則表示該特征得到選擇,若k=0,則表示該特征不被選擇;表示漢明距離計算方式;Ns表示子種群的個體數量,fi表示個體i的適應度值,di表示個體i基于適應度排序的漢明距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學杭州創新研究院,未經北京航空航天大學杭州創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110013279.7/1.html,轉載請聲明來源鉆瓜專利網。





