[發明專利]一種基于雙向XGBoost的基因調控網絡構建方法有效
| 申請號: | 201810277009.5 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN108491686B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 李敏;鄭瑞清 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16B5/00 | 分類號: | G16B5/00;G16B45/00 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 楊萍 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙向 xgboost 基因 調控 網絡 構建 方法 | ||
1.一種基于雙向XGBoost的基因調控網絡構建方法,其特征在于,包括以下步驟:
步驟1、根據時序基因表達數據,依次選取每一個基因作為特定基因,針對每一個特定基因分別構建一個雙向模型,一個雙向模型包括一個local-in模型和一個local-out模型,在local-in模型中,特定基因為調控目標基因,其他基因為其候選調控基因;在local-out模型中,特定基因為調控基因,其他基因為其候選調控目標基因;
local-in模型表示為以下回歸方程:
其中,表示除特定基因Gi以外的其他基因在t-p至t-1時刻的表達值集合,N表示時序基因表達數據中基因的個數,fi( )表示特定基因Gi在t時刻的表達值與Gp之間存在的函數關系,p表示時滯系數,T為時序基因表達數據中時間片的個數,∈i表示隨機誤差;該回歸方程以其他基因在t-p至t-1時刻的表達值為自變量,以特定基因Gi在t時刻的表達值為因變量,表示其他基因在t-p至t-1時刻的表達值對于特定基因在t時刻的表達值的影響程度,用于為特定基因選擇調控基因,在基因調控網絡中產生調控基因-Gi這樣的有向邊,-表示調控關系;
local-out模型表示為以下回歸方程:
其中,表示除特定基因Gi以外的其他基因在t+1至t+p時刻的表達值集合;該回歸方程以其他基因在t+1至t+p時刻的表達值為自變量,以特定基因Gi在t時刻的表達值為因變量,表示特定基因在t時刻的表達值對于其他基因在t+1至t+p時刻的表達值的影響程度,用于為特定基因選擇調控目標基因,在基因調控網絡中產生Gj-調控目標基因這樣的有向邊;t+p<T;
步驟2、使用XGBoost對回歸方程建立梯度提升回歸樹;在回歸樹的建立過程中,以回歸方程的因變量,即特定基因Gi在t時刻的表達值的樣本空間為根節點,以回歸方程的自變量,即其他基因的表達值作為特征,在每個節點上,選擇帶懲罰的方差降低最多的特征作為分裂特征,根據分裂特征的布爾函數對節點進行劃分;對每個特征統計其在建立回歸樹的過程中被選擇作為分裂特征的次數,作為該特征的重要性打分,并將其作為特定基因Gi與該特征對應的候選基因之間的調控關系的初步權重值;
步驟3、對每個獨立的回歸方程計算殘差值,并對殘差值進行歸一化處理;將歸一化處理后的殘差值作為評價每個獨立的回歸方程的權重,將每個獨立的回歸方程的權重乘以每個回歸方程中調控關系的初步權重值作為每個回歸方程中的調控關系的最后打分;最終結合雙向模型中同一對調控關系的兩次打分進行最終打分,得到該對調控關系的全局權重;
步驟4、對調控關系的全局權重由大到小進行排序,選取排名靠前的M個調控關系,在相應基因之間建立一條邊,從而形成基因調控網絡。
2.根據權利要求1所述的基于雙向XGBoost的基因調控網絡構建方法,其特征在于,所述步驟3中殘差值為均方誤差,回歸方程中的調控關系的最后打分通過以下方法計算:
對任意一個基因Gi建立的回歸方程計算均方誤差SSEi,并進行歸一化,得到nSSEi:
其中,表示特定基因Gi在t時刻的表達值表示由回歸樹得到的估計值;
并采用以下方式計算基因Gi與基因Gj之間的調控關系的最后打分:
I(i,j)=nSSEi·nwi,j
其中,nwi,j表示調控關系的初步權重值wi,j歸一化后的值,nwi,j=wi,j/∑alljwi,j。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810277009.5/1.html,轉載請聲明來源鉆瓜專利網。





