[發明專利]一種LncRNA和環境因素關聯關系的高效預測方法在審
| 申請號: | 201911151918.5 | 申請日: | 2019-11-22 |
| 公開(公告)號: | CN110942803A | 公開(公告)日: | 2020-03-31 |
| 發明(設計)人: | 鄺祝芳;汪茄琪;韓跟偉;馬志豪 | 申請(專利權)人: | 中南林業科技大學 |
| 主分類號: | G16B15/00 | 分類號: | G16B15/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410004 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 lncrna 環境 因素 關聯 關系 高效 預測 方法 | ||
本發明公開一種LncRNA和環境因素關聯關系的高效預測方法,主要包括以下步驟:1、下載數據集,得到LncRNA和環境因素(EF)的列表,和二者關聯關系的關聯矩陣A;然后分別計算出LncRNA和EF的高斯相互作用屬性核相似矩陣KL、KE。2、計算EF之間的化學結構相似性矩陣E。3、將KL進行邏輯斯蒂函數轉換,得到相似矩陣SL;且利用E和KE構建EF的相似矩陣SE。4、融合A、SL和SE構建一個全局異構網絡G;利用重啟隨機游走計算擴散特征,并使用奇異值分解降維。5、計算lncRNA?EF對的Hetesim得分。6、結合擴散特征和HeteSim得分得到特征數據集并用于訓練梯度提升樹分類器去預測LncRNA?EF的關聯關系。7、使用10折交叉驗證方法對提出的方法進行驗證。應用本發明預測LncRNA和EF關聯關系的精度高。
技術領域
本發明涉及生物信息學領域,具體涉及一種預測LncRNA和環境因素關聯關系的方法。
背景技術
生物個體的先天本性和后天發展出來的行為習慣的不同主要是由遺傳和環境的差異造成的。生物學家普遍認為,表型變異不是單純由遺傳或環境的差異產生,而是由兩者的相互作用共同影響的;表型和疾病是由遺傳因素(Genetic Factors,GFs)和環境因素(Environmental Factors,EFs)的復雜相互作用決定的。如今人們普遍認為,幾乎所有的疾病都是由個體的遺傳因子與其環境暴露之間復雜的相互作用引起的例如:癌癥、心臟病、阿爾茨海默病和糖尿病等人類疾病均是由GFs和EFs之間復雜的相互作用引起的。
按照人類全基因轉錄組分析,人類基因組有大量的基因產生轉錄為RNA,但是僅有百分之一到百分之二的RNA翻譯成蛋白質。這暗示了人類基因組有大量序列不編碼蛋白質,生物體有大量非編碼RNA(non-coding RNA,ncRNA)產生。隨著高通量測序技術的飛速發展以及對RNA研究的深入,長非編碼RNA(Long non-coding RNA,LncRNA)的研究也越來越成為熱點。有研究表明LncRNA在某些生物過程起著十分重要的作用,例如染色質修飾、轉錄及轉錄調節和人類疾病。然而,由于LncRNA的調控網絡復雜,其調控的潛在機制仍然不清楚。大多數LncRNA的功能仍然未知,需要進一步的探索研究。
然而,與基因和miRNA相比,利用生物信息學方法以及計算方法研究與疾病有關的LncRNA和EFs之間的關聯關系卻相對較少。因此,基于可用的生物數據發明有效的計算方法來預測潛在的LncRNA和環境因素之間的聯系就顯得非常重要。
發明內容
本發明的目的是針對現有技術的不足,提出一種基于機器學習并通過擴散特征和HeteSim得分相結合,在異構網絡中預測LncRNA-環境因素關聯關系的方法,能更準確地預測出LncRNA和環境因素的關聯關系。
本發明提出的LncRNA和環境因素關聯關系的高效預測方法,步驟如下:
1.下載公開數據庫DLREFD(網址:
其中A(li,ej)=1,表示LncRNA li和環境因素ej存在關聯關系,值為0表示不存在關聯關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南林業科技大學,未經中南林業科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911151918.5/2.html,轉載請聲明來源鉆瓜專利網。





