[發(fā)明專利]基于RNN的基因調控網(wǎng)絡構建與動態(tài)差異性分析方法有效
| 申請?zhí)枺?/td> | 201710355357.5 | 申請日: | 2017-05-19 |
| 公開(公告)號: | CN107220525B | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設計)人: | 陳晉音;鄭海斌;熊暉;吳洋洋;李南;應時彥 | 申請(專利權)人: | 浙江工業(yè)大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00;G16B5/00 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 rnn 基因 調控 網(wǎng)絡 構建 動態(tài) 差異性 分析 方法 | ||
1.一種基于RNN的基因調控網(wǎng)絡構建與動態(tài)差異性分析方法,其特征在于:包括以下步驟:
第一步、基于deepRNN的基因動態(tài)調控網(wǎng)絡構建
基因表達數(shù)據(jù)表示為其中表示第j個樣本的第i個基因在tk時刻的表達量,在t0時刻輸入的樣本基因表達數(shù)據(jù)矩陣表示為輸入序列表示為X={Vi|i∈[1,n]};輸出的調控權值矩陣包括了節(jié)點度值、連邊權重及調控方向,輸出矩陣W={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}實質是一個上三角矩陣,包含樣本sa的信息基因在tk時刻的調控關系,在某一時刻的前后短時間段內,在基因A的表達作用于基因B時不受基因B的反作用;若|ωij|<threshold則表示該基因對之間無連邊;否則當ωij>0表示基因i對基因j上調,當ωij<0表示下調;若i=j則表示基因的自調控;
第二步、基于亞型內動態(tài)調控網(wǎng)絡的時序變化演化分析
定義C1亞型在t0時刻的有向加權圖拓撲結構表示為即將信息基因抽象成節(jié)點集合V,將基因間的關系或作用描繪成邊集合E,表示基因i以權重ωij對基因j的作用,為+上調或者-下調;使用真陽率、假陽率、陽性預測率、準確率對調控網(wǎng)絡的性能進行定量評價;
第三步、基于亞型間動態(tài)調控網(wǎng)絡的網(wǎng)絡差異演化分析
不同亞型網(wǎng)絡的演化分析包括動力學分析、差異性分析和擾動分析,
所述動力學分析使用差分方程對離散的網(wǎng)絡動力學行為進行分析,對于不同亞型的動態(tài)調控網(wǎng)絡,分析同一時間段關聯(lián)基因對的節(jié)點度值、連邊權重、表達變化量相對比率;通過提取不同亞型網(wǎng)絡的關聯(lián)特征,并以此為基礎構建多網(wǎng)絡協(xié)同演化模型;
所述差異性分析對相同時間窗口內不同亞型間的兩個基因調控網(wǎng)絡作基于節(jié)點局部結構特征的減法運算,檢測網(wǎng)絡結構間存在的差異邊,根據(jù)差異網(wǎng)絡鑒別關鍵樞紐基因,然后利用GO信息和KEGG通路功能富集性分析檢驗所發(fā)現(xiàn)基因集的顯著性,得到癌癥亞型相關控制基因作為進一步生物實驗的檢驗標記;
所述擾動控制分析中,關鍵樞紐基因節(jié)點在細胞生化過程中具有以下特征:同功能中心,即該節(jié)點附近的基因屬于某類功能的基因集;同驅動中心,即受到該節(jié)點表達調控的同距離區(qū)間內的基因具有類似的生化功能,對于關鍵樞紐節(jié)點的調控輸入一個隨機擾動ΥPer,對不同網(wǎng)絡在同距離區(qū)間內的同功能基因集取交集,得到亞型網(wǎng)絡間的動態(tài)調控差異節(jié)點;
所述第一步中,基于deepRNN的基因動態(tài)調控網(wǎng)絡構建包括以下步驟:
1.1預處理,首先,提取亞型網(wǎng)絡之間的信息基因,然后,將同一亞型內部的樣本按照百分比隨機分為訓練集80%,驗證集10%,測試集10%,進一步,將同一樣本的基因表達按照時間序列展開作為輸入向量:表示第cx類亞型中具有mcx個樣本,提取其中的ninf個信息基因,按照不同時刻k的展開;
1.2激活函數(shù)與損失函數(shù),采用ReLU非飽和激活函數(shù),值域為[0,+∞),公式如下:
其中為激活函數(shù);
deepRNN由一個輸入層、一個或多個循環(huán)體隱藏層和一個輸出層組成,所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時刻的狀態(tài)與當前時刻的輸入拼接成一個大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡的輸入,得到第l層的第j個單元的信號輸出為:
其中H是隱藏單元個數(shù),分別表示與第j個隱藏單元uj相連接的需要被訓練的權重和偏差;當誤差從輸出層反向傳播回來時,使用LSTM的記憶元保存信息,在訓練時,將每個輸出單元的均方誤差作為損失函數(shù),即:
其中M'表示訓練樣本個數(shù),N表示每個訓練樣本基因個數(shù),ωm(i,j)表示在t時刻樣本m中的基因gi對基因gj的作用效果,即連邊權重,表示預測值;
1.3 dropout方法,在訓練過程中,對于每個訓練樣本的隱藏單元及其邊緣將會以概率為p被暫時丟棄;因此前向傳播和后向傳播將在一個特別“薄”的稀疏網(wǎng)絡上進行;對于deepRNN,只在同一時刻的不同層循環(huán)體之間使用dropout,即僅在同一時刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout;將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率;
1.4加速梯度優(yōu)化和權重初始化,擬采用動量法進行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進行參數(shù)更新,對于神經(jīng)網(wǎng)絡參數(shù)Θ的損失函數(shù)L(·),動量計算公式如下:
其中,μ∈[0,1]是動量系數(shù),η是學習率;
隱藏層單位的權重使用均勻分布進行采樣,定義如下:
其中ni,no分別表示隱藏單元的扇入扇出個數(shù);
1.5輸出,在循環(huán)體中的神經(jīng)網(wǎng)絡供給當前時刻的輸出后,將會使用另外一個全連接神經(jīng)網(wǎng)絡實現(xiàn)將當前時刻的狀態(tài)轉化為最終的輸出;
所述第二步中,網(wǎng)絡的拓撲屬性是描述網(wǎng)絡本身及其內部節(jié)點或邊結構特征的測度,包括:
聚類系數(shù),體現(xiàn)部分節(jié)點間存在的密集連接性質,在有向網(wǎng)絡中,標準化的聚類系數(shù)被定義為:
其中kout表示節(jié)點v的出度,n表示所有v所指向的節(jié)點彼此存在的邊數(shù),
介數(shù)表明一個節(jié)點在其他節(jié)點彼此連接中所起的作用,標準化至[0,1]區(qū)間的計算公式如下:
其中σij是節(jié)點i到節(jié)點j的最短路徑條數(shù),σivj表示σij中通過節(jié)點v的路徑條數(shù);
緊密度是描述一個節(jié)點到網(wǎng)絡中其他所有節(jié)點平均距離的指標,定量衡量節(jié)點接近網(wǎng)絡“中心”的程度,節(jié)點v的緊密度Cv計算公式如下:
其中dvj表示節(jié)點v到節(jié)點j的最短距離,即路徑中所經(jīng)過邊的權重之和最小;緊密度越小,節(jié)點越接近中心;
基于網(wǎng)絡結構的拓撲屬性變化在時間序列上對時間窗口Δt進行微分展開,得到動態(tài)調控網(wǎng)絡的時空演化測度Γ'(·)的計算公式如下:
其中Θ表示函數(shù)參數(shù),ωCC、ωB、ωC分別為對應指標的影響權重;
通過分析動態(tài)網(wǎng)絡在不同時刻的節(jié)點指標CCv、Bv、Cv,挖掘在不同時間窗口內的關鍵調控基因節(jié)點,解釋其在生命活動過程中扮演的重要性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業(yè)大學,未經(jīng)浙江工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710355357.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于文本到語音的超結構循環(huán)神經(jīng)網(wǎng)絡
- 基于先進的遞歸神經(jīng)網(wǎng)絡的“字母到聲音”
- 一種基于分層循環(huán)神經(jīng)網(wǎng)絡語言模型的語音識別方法
- 模式識別裝置以及模式識別方法
- 音頻事件檢測方法、裝置及計算機可讀存儲介質
- 一種城市交通流量預測方法、系統(tǒng)及電子設備
- 循環(huán)神經(jīng)網(wǎng)絡訓練優(yōu)化方法、設備、系統(tǒng)及可讀存儲介質
- 一種基于RNN的量子計算方法和裝置
- 用于水質參數(shù)預測的聯(lián)合神經(jīng)網(wǎng)絡模型及其訓練方法
- 基于RNN的降噪處理方法及系統(tǒng)





