[發明專利]一種改進的基于通路的全基因組關聯分析算法有效
| 申請號: | 201510096276.9 | 申請日: | 2015-03-04 |
| 公開(公告)號: | CN104615912B | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 高會江;樊惠中;李俊雅;夏江威;吳洋;張路培;高雪;陳燕;郭鵬 | 申請(專利權)人: | 中國農業科學院北京畜牧獸醫研究所 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 北京世譽鑫誠專利代理事務所(普通合伙)11368 | 代理人: | 郭官厚 |
| 地址: | 100193 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 基于 通路 基因組 關聯 分析 算法 | ||
技術領域
本發明涉及一種基于通路的全基因組關聯分析算法,具體涉及一種改進的基于通路的全基因組關聯分析算法,屬于生物技術領域。
背景技術
隨著測序技術的發展以及高密度SNP芯片的普及,全基因組關聯分析(GWAS)已經日益成為了人類疾病研究及動物育種的一個有力工具。
傳統的全基因組關聯分析僅僅關注了全基因組數據中嚴格符合統計學“全基因組”顯著水平的極少數位點,然而這些極少數位點通常只能解釋小部分遺傳變異,全基因組關聯數據中還有大量的剩余遺傳信息有待發掘。
隨著對GWAS的深入研究,它還逐漸暴露出了以下一些缺陷,具體有:
(1)對于一些性狀而言,沒有SNP能夠通過多重檢驗,這樣一來就無法進行基因定位,或者即使一些SNP位點通過了檢驗,但發現其沒有表現任何生物學意義。
(2)研究表明,復雜數量性狀的表型變異往往不是由少數幾個SNP或基因所決定的,這樣一來單位點回歸的研究算法找到的SNP或基因無法解釋所有的遺傳變異。
為了解決GWAS存在的上述問題,人們提出了許多不同的算法,其中最主要的一種就是基于通路的全基因組關聯分析算法,根據構建基因統計量的方法不同,該算法可以分為三類:
(1)使用最顯著的SNP效應構建基因統計量,這種算法可能無法檢測到那些單個SNP效應較小但聯合起來效應很大的SNP位點,而且,這種算法偏愛于含有較多SNP的基因及較多基因的通路。
(2)使用基因內部所有SNP效應構建統計量,這種算法不但計算量過大,而且容易引起假陽性。
(3)按效應排序后使用前K個SNP的效應構建統計量,這種算法是基于SNP之間是獨立這個假設的,而實際上SNP間是有連鎖不平衡的,SNP的互作效應會使關聯分析準確性大大降低。
發明內容
為解決現有技術的不足,本發明的目的在于提供一種改進的基于通路的全基因組關聯分析算法,該算法將SNP互作效應考慮到基于通路的GWAS分析中,能夠有效降低SNP連鎖對結果的影響。
為了實現上述目標,本發明采用如下的技術方案:
一種改進的基于通路的全基因組關聯分析算法,其特征在于,包括以下步驟:
(一)收集通路:
在KEGG數據庫里下載并篩選出與牛相關的通路;
(二)表型校正:
應用R語言的GLM進行表型校正,具體使用的模型為:
yijkm=μ+Seasoni+Yearj+Fattendaysk+Enterweightm+eijkm
其中,yijkm為個體表型值,μ為群體均值,Seasoni為出生季節,Yearj為屠宰年份,Fattendaysk為屠宰日期減去進場日期,Enterweightm為進場時個體的體重,eijkm為剩余效應;
(三)構建eSNP矩陣:
建立組成基因的多個SNP基因型指示變量的相關矩陣,根據矩陣的特征根的累積貢獻率選擇主成分,用相關矩陣中的所選擇的主成分對應的特征向量建立超SNP指示變量矩陣;
(四)建立GWAS模型:
關聯分析采用簡單的基于單位點回歸的廣義線性模型,該模型具體如下:
y*=Xb+Qv+e
其中,y*為剔除固定效應的表型值,b為eSNP標記的效應值,v為群體的結構效應,e為剩余效應,X是eSNP對應的關聯矩陣,Q為v對應的關聯矩陣;
(五)構建基因統計量:
使用下面公式計算基因統計量:
式中,和分別是基因K中正的統計量的平均值和負的統計量的平均值;
(六)計算通路ES值:
使用下面公式計算通路ES值:
式中,
(七)重排數據和檢驗顯著性。
前述的算法,其特征在于,在步驟(一)中,收集通路的具體步驟如下:
(1a)在KEGG數據庫里下載所有與牛相關的通路;
(1b)保留具有以下特征的通路:所含基因數大于5個且小于300個,并且將SNP分配到基因后仍含有5個以上基因。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業科學院北京畜牧獸醫研究所,未經中國農業科學院北京畜牧獸醫研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510096276.9/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡妫纾焊怕誓P突騽討B模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





