[發明專利]一種全基因組測序數據計算解讀方法在審

申請號：	201710362124.8	申請日：	2017-05-22
公開（公告）號：	CN107194204A	公開（公告）日：	2017-09-22
發明（設計）人：	宋卓;劉蓬俠;李根	申請（專利權）人：	人和未來生物科技（長沙）有限公司
主分類號：	G06F19/20	分類號：	G06F19/20;G06F19/22;G06F19/24
代理公司：	湖南兆弘專利事務所(普通合伙)43008	代理人：	譚武藝
地址：	410152 湖南省長沙***	國省代碼：	湖南;43
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基因組序數計算解讀方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及基因測序技術，具體涉及一種全基因組測序數據計算解讀方法。

背景技術

近年來，隨著下一代測序技術（Next Generation Sequence, NGS）的廣泛應用，基因測序的成本迅速下降，基因測序技術得以在更加廣泛的生物、醫療、健康、刑偵、農業等等許多領域被推廣應用。其中，基于NGS的全基因組測序（Whole Genome Sequencing, WGS）是一個非常有應用價值的分支領域，受到廣泛的關注。

全基因組測序是指對一種生物個體的基因組中的全部基因進行測序，即測定其脫氧核糖核酸(Deoxyribo-Nucleic Acid, DNA)的堿基序列?；蚪M信息已能用于鑒定遺傳疾病，查找驅使癌癥發展的突變，追蹤疾病的爆發。而全基因組測序可謂是基因組最為全面的研究方案和最強有力的研究工具。盡管全基因組測序常被理解為用于測定人類基因組，但實際上NGS的規模和靈活性體現于可以在任何物種上高效運用全基因組測序技術，如農業畜牧業，植物，或疾病相關微生物。

基于NGS的全基因組測序的優點在于：能夠提供高分辨率、精確到逐個堿基的基因組視圖；可以捕獲大的變異，以及小到可能被遺漏的變異；能夠鑒定潛在的致病變異，從而進行基因表達和調控機制的進一步研究；在短時間內提供大量的數據，以支持新基因組的組裝等。例如，外顯子組測序或靶向重測序等有側重點的方法只分析基因組的有限部分，全基因組測序則不同，能提供整個基因組的全面視圖。它是各種發現應用——如鑒定致病變異和新基因組組裝——的理想選擇。全基因組測序可檢測單核苷酸多態性（Single Nucleotide Polymorphism, SNP）、插入/缺失（indel）、拷貝數變異（Copy Number Variation, CNV）和大的（large）結構化變異（Structural Variants, SV）。隨著技術創新，最新的基因組測序儀能夠比以往更高效地開展全基因組測序。

基于NGS的全基因組測序的數據處理流程包括數據計算和數據解讀兩大步驟，其中的數據計算步驟完成參考基因組的預處理和原始測序數據的修剪、比對、去重等計算任務，以便數據解讀時使用；數據解讀步驟對數據計算處理后的數據在生物學、醫學、健康保健等領域的科學含義進行分析、揭示和解釋。

目前，基于NGS的全基因組測序技術在應用上存在兩個方面的瓶頸：

一個瓶頸是測序數據產出能力遠遠大于測序數據處理能力。例如，在基于NGS的全基因組測序中比較常用的一個測序數據計算解讀協議GATK流程中，基于參考基因組NA12878，處理一個人的全基因組測序樣本數據（大約100GB），在CPU上僅僅是進行深度覆蓋的單倍型識別（haplotype caller）這一個子步驟，就大約需要耗時10到15天，而Illumina公司的 HiSeq 4000測序儀在5個小時之內能夠產出200M 個讀長為300堿基對（base pair, bp）的測序片段（reads）。因此，一方面，測序生成的原始數據每年3到5倍的增加速度已經遠超摩爾定律，而測序數據的計算解讀又是高輸入/輸出密集和高計算密集型任務，對測序數據進行實時的、準確的計算解讀和傳送變得非常困難，面臨著巨大的挑戰。另一方面，目前典型的測序數據計算解讀方法仍然主要是依托高性能的中央處理器（Central Processing Unit, 簡稱CPU），運用基于多線程技術的軟件進行處理。但是，在保證準確性的前提下，它能獲得的計算解讀加速性能仍然無法滿足上述挑戰的需求。所以，這種方法已經缺乏持續性。

另一個瓶頸是測序數據解讀的深度、廣度無法滿足科研人員的需求，與此同時其可讀性又無法滿足普通大眾的需求。目前測序數據解讀的典型方法是基于一個參考基因組，然而，當前使用的參考基因組本身就是基于有限的樣本，既不足以代表整個相關物種的多樣性，又不完備，因此在數據計算解讀時會導致偏差，而且缺乏與其它生物、醫學信息的廣泛地、深度交叉分析，難以滿足專業科研人員深入研究的需求。此外，測序數據解讀還基本停留在專業領域，面向非專業的大眾，又缺乏可讀性，即缺乏對測序數據直接的生物意義和間接的健康影響的通俗易懂、形式多樣的解讀。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于人和未來生物科技（長沙）有限公司，未經人和未來生物科技（長沙）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710362124.8/2.html，轉載請聲明來源鉆瓜專利網。