[發明專利]基于深度學習和進化計算的特征基因選擇方法有效
| 申請號: | 201711336535.6 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN107992945B | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 陳晉音;鄭海斌;劉靚穎;宣琦;應時彥;李南;施朝霞 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 進化 計算 特征 基因 選擇 方法 | ||
1.一種基于深度學習和進化計算的特征基因選擇方法,其特征在于:所述方法包括以下步驟:
1)選擇差異表達的基因,建立一級基因池,過程如下:
1.1)計算原始基因池中各個基因的差異表達水平指數,即IIC-FC指數:
式(1)中,c表示原始基因池中的基因個數,和分別表示基因i和基因j的表達水平均值,和分別表示基因i和基因j的表達水平標準差,函數max{·,·}和min{·,·}分別表示取最大值和最小值,ln(·)為對數函數;若IIC-FC指數越大,表明該基因包含的樣本分類信息豐度越高,用于樣本分類獲得高精度的可能性越大;
1.2)根據二八準則,按照步驟1.1)中得到的IIC-FC值從高到低對原始基因池中的所有基因進行排序,然后從中選擇前20%的基因作為一級基因池;
2)對一級基因池中的基因進行自動聚類,過程如下:
2.1)基于密度聚類算法計算一級基因池中每個基因的距離值δ和密度值ρ;定義歐拉距離作為基因i和基因j之間的相似度距離,計算公式如下:
式(2)中,Nsam表示樣本個數,gE(i,k)表示基因i在樣本k中的表達值;
首先計算各個基因的密度值ρ,得到密度矩陣計算公式如下:
式(3)中,ρi表示基因genei的密度值,一級基因池為相應的指標集為IP={1,2,...,Npool1};其中定義表達值累加和最大處的基因genemax與最小處的genemin之間的相似度距離的2%作為dc值,計算公式如下:
dc=0.02*dgene(genemax,genemin) (4)
然后計算各個基因的距離值,得到距離矩陣每個基因genei的距離值定義為δi,首先查找比genei密度大的基因集,得到集合P'={genej},然后查找P'中與genei的距離最近的基因,則得到δi=dgene(i,j');
定義函數fγ是關于變量ρ和δ的二元離散函數,對應于三維空間中的坐標值是(ρ,δ,fγ),則得到雙變量離散函數為:
式(5)中,fγ取密度值和距離值的乘積的對數值作為函數值;表示大于零的較小正數;
2.2)根據步驟2.1)中得到的雙變量離散函數γ=fγ(ρ,δ),利用最小二乘法進行二元斜面的擬合,得到擬合平面為zγ=b1+b2ρ+b3δ,計算各個數據點的殘差值為εγi=yγi(ρ,δ)-γi(ρ,δ),繪制殘差直方圖εγi-h,并根據鐘型曲線的正態擬合得到方差值為σγ,利用3σ原則自動確定處在置信區間外的η個奇異點作為聚類中心,記為cγ;
3)構建深度基因表達預測網絡DGEPN,計算一級基因池的“基因-基因”敏感性信息GGSI,過程如下:
3.1)區分樣本的訓練集、驗證集和測試集,搭建多層神經網絡作為深度基因表達預測網絡;首先假定有Nsam個樣本,每個樣本在原始基因池中有Ngene維基因表達,其中Min個基因作為神經網絡的輸入層,即將一級基因池中的所有基因作為輸入;Mout個基因作為神經網絡的輸出層,即將原始基因池中對應一級基因池的補集作為輸出;滿足Min=Npool1,Min+Mout=Ngene,則每個樣本可以表示為然后隨機挑選Ntrain個樣本組成訓練集,Nval個樣本組成驗證集,Ntest個樣本作為測試集,其中Ntrain:Nval:Ntest=4:1:1;
在神經網絡的輸入層和輸出層間具有lhidden層隱藏層,隱藏層的神經元之間進行全連接;第i層隱藏層的神經元個數NumNeui為:
NumNeui=Min+i*Z{abs(Min-Mout)/lhidden+1} (6)
式(6)中,函數abs(·)表示取絕對值,Z{·}表示取整函數;為了減少訓練參數從而加快訓練,對神經網絡中的隱藏層設置dropout比率;為了克服梯度彌散問題,激活函數采用ReLU函數;
3.2)計算基因間的敏感性信息,基于步驟3.1)中搭建的深度基因表達預測網絡,定義第i個輸入基因到第j個輸出基因的敏感性信息為:
式(7)中,表示第j個輸出神經元對第i個輸入神經元的導數;敏感性信息指數越大,說明第i個基因對第j個基因的非線性相關性越高;
3.3)根據步驟3.2)中得到的基因間敏感性信息,計算神經網絡輸入層中每個輸入基因歸一化后的敏感性指數:
3.4)訓練神經網絡,定義輸出值與期望值的平均平方誤差作為損失函數,即:
當訓練代數達到預設的最大值或者損失值小于預設的閾值,結束訓練,并用測試集的平均絕對誤差MAE作為神經網絡模型的評價指標:
誤差越小,說明計算GGSI的網絡模型性能越好;
4)建立二級基因池,過程如下:
4.1)計算步驟2)中得到的每個基因簇的最大GGSI值和平均其中K是基因簇的個數;然后依據簇間剔除和簇內剔除策略構建二級基因池;
4.2)首先進行簇間剔除,若第j個簇的GGSI最大值遠小于其它簇的GGSI最大值,即則剔除該基因簇中的所有基因;
4.3)然后進行簇內剔除,若第i個簇內的第j個基因的GGSI值小于該簇的GGSI平均值,即則剔除該基因,其中NumKi表示基因簇i中包含的基因個數;
5)基于二進制布谷鳥搜索算法進行優化搜索最緊湊的基因集合,建立三級基因池,過程如下:
5.1)進行鳥巢的編碼初始化,首先將二級基因池中的每個基因根據其GGSI值從高到低進行排序,然后對第i個鳥巢的第j維,即第i個解的第j個基因進行初始化編碼:
式(11)中,d表示解的維度,即二級基因池中的基因個數;式(11)表示GGSI排名靠前20%的基因和排名靠后20%的基因分別編碼為1和0,剩余基因進行0或者1的隨機編碼;
5.2)進行糟糕解的替換,為了保證新產生的解都是由優秀的個體組成,基于概率pa淘汰不適應環境的糟糕解,并將它們替換為新的解決方案,替換公式為:
式(12)中,d表示解的維度;式(12)表示對某個糟糕解,將其GGSI排名靠前10%的基因和排名靠后10%的基因分別編碼為1和0,剩余基因的編碼不變;
5.3)進行鳥巢位置的更新,更新公式為:
式(13)中,Sig(·)表示sigmoid函數,Avg(·)表示二級基因池中所有基因的GGSI的平均值,其中Levy(λ)~u=s-λ,λ∈(1,3],α>0表示步長尺度縮放因子;
5.4)布谷鳥搜索優化算法的適應度函數定義為:
fitness(neti)=MAE(neti)+ξ*GeneNumber(neti) (14)
式(14)中,MAE(neti)表示第i個解在二級基因池中所選擇的基因集合在DGEPN中預測剩余基因表達的平均絕對誤差,GeneNumber(neti)表示第i個解所選的基因個數,ξ∈{10-2,10-3,10-4}是一個尺度規模參數,ξ的取值根據GeneNumber(neti)的值確定;
5.5)進行優化搜索迭代,當達到預設的迭代次數,或者適應度函數值小于預設的閾值,則停止迭代,將此時的最優解進行解碼,得到最優三級基因池。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711336535.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于手工貼膜的裝置
- 下一篇:自動化硅片頂出承載機構





