[發明專利]基于卡方檢測算法和改進的果蠅優化算法的有效混合特征選擇方法在審
| 申請號: | 202010087954.6 | 申請日: | 2020-02-12 |
| 公開(公告)號: | CN111414935A | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 閻朝坤;吳彬;侯金翠;羅慧敏;王建林 | 申請(專利權)人: | 河南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 張立強 |
| 地址: | 475001 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 檢測 算法 改進 果蠅 優化 有效 混合 特征 選擇 方法 | ||
本發明提供一種基于卡方檢測算法和改進的果蠅優化算法的有效混合特征選擇方法。該方法包括:步驟1、采用基于卡方檢測算法特征排序策略對種群中的M個個體進行隨機初始化;步驟2、采用設定的適應度函數計算所述種群中每個個體的適應度值,將種群中適應度值最大的個體所表示的解作為全局最優解;步驟3、采用改進的果蠅優化算法更新所述種群中的個體,并更新種群中每個個體的適應度值,更新種群中的全局最優解;步驟4、以步驟3作為一次迭代,重復進行步驟3,直至當前迭代次數達到設定的迭代次數。與其他特征選擇方法相比,本發明用更少的特征可獲得更高分類精確度。
技術領域
本發明涉及生物信息學技術領域,尤其涉及基于卡方檢測算法和改進的果蠅優化算法的有效混合特征選擇方法。
背景技術
在疾病的控制和管理中,早期診斷中疾病數據分析扮演著越來越重要的角色,尤其像癌癥這類疾病。人們迫切需要更多可靠的輔助辦法,結合醫療診斷,最大限度地提高疾病診斷的準確率。隨著生物醫學技術和健康領域關鍵技術的快速發展,大量的生物信息學和臨床醫學數據,尤其是分子生物學實驗數據以前所未有的速度和規模增長和積累。這些醫學大數據中蘊藏著大量的有價值的信息,對這些數據進行數據挖掘,有助于發現與該疾病相關的發病規律、危險因素及其之間的相互影響,為疾病的臨床診斷和治療提供參考。
為了檢測基因的表達水平,通過DNA微陣列實驗能夠測量出成千上萬個基因甚至是全基因組的表達水平值,這些數據被稱為基因表達數據。基因表達數據具有“高維小樣本”的特點,數據集中的基因個數成千上萬,其中一部分基因特征可能和挖掘任務是不相關的或特征之間相互冗余,如結腸微陣列數據集,包含了兩千多個基因特征。生物醫學發展中,分子診斷疾病將面臨高維生物數據集合包含了成千上萬冗余特征的難題,隨著描述數據的特征越來越多,數據維度越來越高,其中一部分特征可能和挖掘任務是不相關的或特征之間相互冗余。為了解決這個問題,數據降維的研究早在多年前就出現了,即在不降低算法分類準確率的前提下,能有效去除不相關和冗余特征,降低數據維度。數據降維的研究若能成功,對生物醫學和疾病研究來說將是一個非常大的突破。數據挖掘是從大量的數據找到隱藏的模式,提取出有用的信息和科學的決策,然后再通過不同的診斷程序,從而產生大規模的數據集。參考“Xue B,Zhang M,Browne W N,et al.A Survey on EvolutionaryComputation Approaches to Feature Selection[J].IEEE Transactions onEvolutionary Computation,2015,20(4):1-1.”文獻,特征選擇本質上來說是一種為數據挖掘消除數據噪聲的技術,嘗試識別重要特征,并從原始特征集中丟棄不相關或冗余的特征。特征選擇在機器學習與數據挖掘等領域的研究已取得了很大的成果,其在生物信息學這一領域的研究發展必定是一個有潛力的、值得深入研究的方向。
目前常用的特征選擇算法可以從評價準則和分類策略兩方面來進行分類。在基于搜索策略的特征選擇提取特征子集時有三種方式,分別為隨機搜索,全局搜索和啟發式搜索三種,一個高效的搜索算法會結合兩種以上的基本搜索策略。一般情況下,特征選擇過程包含以下步驟:子集生成,子集評估,停止標準和結果驗證。通過這個過程可以去除數據冗余,提高子集分類精確度。
研究人員提出了各種元啟發式算法來組合特征選擇和分類方法。使用的三種常用的特征選擇方法是過濾式、包裝式和嵌入式。特征選擇的研究主要是為了提高泛化能力,即提高模型對未知樣本的預測分析能力;提供更快更有效的模型,從而決定與學習任務相關的特征,減少特征空間的維數。
在特征選擇中特征子集的選取對分類的效率和分類的精確度起了一個關鍵作用,然而有效的識別和選擇相關的候選子集需要一個有效的搜索方法,啟發式算法有助于解決選擇最佳特征的問題。當前我們常見到的智能搜索算法有遺傳算法(GA)、蜂群算法(ABC)、粒子群算法(PSO)、模擬退火算法(SA)、禁忌搜索(TS)等等。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南大學,未經河南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010087954.6/2.html,轉載請聲明來源鉆瓜專利網。





