[發明專利]基于深度學習和進化計算的特征基因選擇方法有效
| 申請號: | 201711336535.6 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN107992945B | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 陳晉音;鄭海斌;劉靚穎;宣琦;應時彥;李南;施朝霞 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 進化 計算 特征 基因 選擇 方法 | ||
一種基于深度學習和進化計算的特征基因查找方法,包括以下步驟:1)計算差異表達水平指數,根據二八準則建立一級基因池;2)根據每個基因的表達水平,計算其映射后的密度矩陣和距離矩陣,繪制決策圖,利用多重線性回歸分析擬合二元平面,自動確定聚類中心;3)構建深度基因表達預測網絡計算一級基因池的基因?基因敏感性信息GGSI,4)依據GGSI值剔除冗余基因,建立二級基因池;5)基于GGSI值對布谷鳥搜索算法進行二進制編碼,選出最緊湊的基因集,建立三級基因池。本發明提供一種基于分級結構建立的特征基因選擇框架,能夠較好的提取出關鍵基因,采用多重線性回歸分析結合深度學習算法和優化算法選擇最緊湊特征基因集的方法。
技術領域
本發明屬于生物信息領域,具體涉及一種特征基因的選擇方法。
背景技術
隨著基因測序技術的進步,高通量測序技術提供了大量基因表達數據?;虮磉_譜作為疾病發生、遺傳擾動和藥物治療后的細胞表達模式的捕獲工具而被廣泛應用。面對大量高維的基因表達數據,如何從中挖掘有用的信息成為生物信息領域的研究重點。
由于基因表達數據的高維性質,挖掘其中具有關鍵信息的特征基因對后續的基因數據處理和樣本表現型分析具有十分重要的意義。目前,有研究人員結合二進制粒子群優化算法(BPSO)和過濾法尋找到最佳的基因子集,從而簡化了基因選擇的過程并獲得了相對遺傳算法(GA)而言具有更高的分類精度。更進一步的研究,通過結合遺傳算法、粒子群優化算法和極限學習機(ELM)設計了一種新的基因選擇方法。然而,這些混合方法在起到簡化基因集的作用和達到處理高效性的同時,缺乏可解釋性。
因此,針對基因表達間的高度非線性相關性和龐大數據量,結合深度學習算法和二進制布谷鳥搜索(BCS)算法,建立神經網絡和分層模型,簡化特征基因選擇與樣本分類過程,增強其可解釋性,對生物信息領域的基因表達分析具有重大意義,能夠指導后續的表現型關聯性分析、癌癥靶向基因標志物檢測等臨床應用。
發明內容
為了克服已有特征基因的選擇方法的不足,本發明提供一種能夠實現聚類中心自動確定、樣本分類更加精確的基于深度學習和進化計算的特征基因選擇方法。
本發明解決其技術問題所采用的技術方案是:
一種基于深度學習和進化計算的特征基因選擇方法,所述方法包括以下步驟:
1)選擇差異表達的基因,建立一級基因池,過程如下:
1.1)計算原始基因池中各個基因的差異表達水平指數,即IIC-FC指數:
式(1)中,c表示原始基因池中的基因個數,和分別表示基因i和基因j的表達水平均值,和分別表示基因i和基因j的表達水平標準差,函數max{·,·}和min{·,·}分別表示取最大值和最小值,ln(·)為對數函數;若IIC-FC指數越大,表明該基因包含的樣本分類信息豐度越高,用于樣本分類獲得高精度的可能性越大;
1.2)根據二八準則,按照步驟1.1)中得到的IIC-FC值從高到低對原始基因池中的所有基因進行排序,然后從中選擇前20%的基因作為一級基因池;
2)對一級基因池中的基因進行自動聚類,過程如下:
2.1)基于密度聚類算法計算一級基因池中每個基因的距離值δ和密度值ρ;定義歐拉距離作為基因i和基因j之間的相似度距離,計算公式如下:
式(2)中,Nsam表示樣本個數,gE(i,k)表示基因i在樣本k中的表達值;
首先計算各個基因的密度值ρ,得到密度矩陣計算公式如下:
其中
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711336535.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于手工貼膜的裝置
- 下一篇:自動化硅片頂出承載機構





