[發明專利]一種全基因組測序數據計算解讀方法在審
| 申請號: | 201710362124.8 | 申請日: | 2017-05-22 |
| 公開(公告)號: | CN107194204A | 公開(公告)日: | 2017-09-22 |
| 發明(設計)人: | 宋卓;劉蓬俠;李根 | 申請(專利權)人: | 人和未來生物科技(長沙)有限公司 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20;G06F19/22;G06F19/24 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙)43008 | 代理人: | 譚武藝 |
| 地址: | 410152 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因組 序數 計算 解讀 方法 | ||
技術領域
本發明涉及基因測序技術,具體涉及一種全基因組測序數據計算解讀方法。
背景技術
近年來,隨著下一代測序技術(Next Generation Sequence, NGS)的廣泛應用,基因測序的成本迅速下降,基因測序技術得以在更加廣泛的生物、醫療、健康、刑偵、農業等等許多領域被推廣應用。其中,基于NGS的全基因組測序(Whole Genome Sequencing, WGS)是一個非常有應用價值的分支領域,受到廣泛的關注。
全基因組測序是指對一種生物個體的基因組中的全部基因進行測序,即測定其脫氧核糖核酸(Deoxyribo-Nucleic Acid, DNA)的堿基序列?;蚪M信息已能用于鑒定遺傳疾病,查找驅使癌癥發展的突變,追蹤疾病的爆發。而全基因組測序可謂是基因組最為全面的研究方案和最強有力的研究工具。盡管全基因組測序常被理解為用于測定人類基因組,但實際上NGS的規模和靈活性體現于可以在任何物種上高效運用全基因組測序技術,如農業畜牧業,植物,或疾病相關微生物。
基于NGS的全基因組測序的優點在于:能夠提供高分辨率、精確到逐個堿基的基因組視圖;可以捕獲大的變異,以及小到可能被遺漏的變異;能夠鑒定潛在的致病變異,從而進行基因表達和調控機制的進一步研究;在短時間內提供大量的數據,以支持新基因組的組裝等。例如,外顯子組測序或靶向重測序等有側重點的方法只分析基因組的有限部分,全基因組測序則不同,能提供整個基因組的全面視圖。它是各種發現應用——如鑒定致病變異和新基因組組裝——的理想選擇。全基因組測序可檢測單核苷酸多態性(Single Nucleotide Polymorphism, SNP)、插入/缺失(indel)、拷貝數變異(Copy Number Variation, CNV)和大的(large)結構化變異(Structural Variants, SV)。隨著技術創新,最新的基因組測序儀能夠比以往更高效地開展全基因組測序。
基于NGS的全基因組測序的數據處理流程包括數據計算和數據解讀兩大步驟,其中的數據計算步驟完成參考基因組的預處理和原始測序數據的修剪、比對、去重等計算任務,以便數據解讀時使用;數據解讀步驟對數據計算處理后的數據在生物學、醫學、健康保健等領域的科學含義進行分析、揭示和解釋。
目前,基于NGS的全基因組測序技術在應用上存在兩個方面的瓶頸:
一個瓶頸是測序數據產出能力遠遠大于測序數據處理能力。例如,在基于NGS的全基因組測序中比較常用的一個測序數據計算解讀協議GATK流程中,基于參考基因組NA12878,處理一個人的全基因組測序樣本數據(大約100GB),在CPU上僅僅是進行深度覆蓋的單倍型識別(haplotype caller)這一個子步驟,就大約需要耗時10到15天,而Illumina公司的 HiSeq 4000測序儀在5個小時之內能夠產出200M 個讀長為300堿基對(base pair, bp)的測序片段(reads)。因此,一方面,測序生成的原始數據每年3到5倍的增加速度已經遠超摩爾定律,而測序數據的計算解讀又是高輸入/輸出密集和高計算密集型任務,對測序數據進行實時的、準確的計算解讀和傳送變得非常困難,面臨著巨大的挑戰。另一方面,目前典型的測序數據計算解讀方法仍然主要是依托高性能的中央處理器(Central Processing Unit, 簡稱CPU),運用基于多線程技術的軟件進行處理。但是,在保證準確性的前提下,它能獲得的計算解讀加速性能仍然無法滿足上述挑戰的需求。所以,這種方法已經缺乏持續性。
另一個瓶頸是測序數據解讀的深度、廣度無法滿足科研人員的需求,與此同時其可讀性又無法滿足普通大眾的需求。目前測序數據解讀的典型方法是基于一個參考基因組,然而,當前使用的參考基因組本身就是基于有限的樣本,既不足以代表整個相關物種的多樣性,又不完備,因此在數據計算解讀時會導致偏差,而且缺乏與其它生物、醫學信息的廣泛地、深度交叉分析,難以滿足專業科研人員深入研究的需求。此外,測序數據解讀還基本停留在專業領域,面向非專業的大眾,又缺乏可讀性,即缺乏對測序數據直接的生物意義和間接的健康影響的通俗易懂、形式多樣的解讀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人和未來生物科技(長沙)有限公司,未經人和未來生物科技(長沙)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710362124.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種丹參的采后干燥方法
- 下一篇:一種改善睡眠的組合物及其制備方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡?,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





