[發明專利]一種全基因組關聯分析方法、系統及電子設備在審
| 申請號: | 201810133320.2 | 申請日: | 2018-02-07 |
| 公開(公告)號: | CN110211631A | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 郭寧;魏彥杰;張慧玲;鄭志春;葛健秋;馮圣中 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B30/00;G16B40/30 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 趙勍毅 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 特征向量 關聯分析 全基因組 電子設備 基因組 相似度 坐標軸 聚類 數據處理技術 測序數據 點位確定 特征表達 特征提取 原始數據 非冗余 計算量 參考 合并 申請 內存 基因 | ||
本申請屬于基因數據處理技術領域,特別涉及一種全基因組關聯分析方法、系統及電子設備。所述全基因組關聯分析方法包括:步驟a:對樣本的原始測序數據進行SNP點位確定,得到樣本的SNP位點信息;步驟b:建立基于參考基因組SNP信息的坐標軸,并根據基于參考基因組SNP信息的坐標軸對樣本的SNP位點信息進行特征提取,得到樣本的特征向量;步驟c:將樣本的特征向量進行聚類,得到樣本的代表特征向量,并將所述代表特征向量進行合并,得到非冗余樣本。本申請通過將原始數據進行聚類,對樣本進行特征表達,找到重要的特征,降低數據的計算量,根據各個樣本之間的相似度,將相似度高的樣本合并起來,去掉其余的樣本,大大降低了內存的需求,提高了效率。
技術領域
本申請屬于基因數據處理技術領域,特別涉及一種全基因組關聯分析方法、系統及電子設備。
背景技術
全基因組關聯分析(Genome-Wide Association Studies,GWAS)在2005年首次提出,建立在SNP(Single Nucleotide Polymorphism)測序技術的基礎上,在過去的十幾年里,SNP測序技術的快速發展,全基因組關聯分析已逐步在物種重要經濟性狀、植物育種、基因改良、尤其是在人類復雜疾病分析等方面起著越來越重要的作用。全基因組關聯分析的目的是在整個基因組范圍內找到與表型相關的易感基因位點變異。近年來,在全基因組關聯分析領域涌現了大量的基因及其交互作用檢測算法,盡管這些算法在領域內取得了巨大的成功,但當前依然存在著一些難題。
目前在進行全基因組關聯分析時,采用病例-對照的思路(case-control)設計分析流程,設立兩組樣本,其中一組為健康的對照組,另一組為患病的病例組,主要的分析方法是在單位點關聯分析的大規模列聯表里對等位基因或者基因型進行計數,確認某一等位基因出現在病例組中的個數和出現在對照組中的個數,其比值的結果若大于1就可能表明這一等位基因與疾病相關。若采用多位點關聯分析分析,則一般使用全部變異位點或根據連鎖不平衡原理選擇相鄰的幾個變異位點進行多變量的關聯分析。常用的分析方法有基于單體型的分析、多變量logistic回歸和多變量顯著性差異檢驗。基于單體型的分析過程與根據發生比確認關聯信息的過程類似,主要的好處是分析過程所要需要考慮的自由度很少,同時可以進一步把單體型信息作為分類標志與回歸分析結合在一起進行深一層次的處理。多變量logistic回歸則嘗試在疾病與位點的基因型之間建立回歸模型來檢驗是否有關聯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810133320.2/2.html,轉載請聲明來源鉆瓜專利網。





