[發(fā)明專利]一種基因組變異檢測方法及檢測裝置有效
| 申請?zhí)枺?/td> | 201611073982.2 | 申請日: | 2016-11-29 |
| 公開(公告)號: | CN108121897B | 公開(公告)日: | 2020-05-08 |
| 發(fā)明(設計)人: | 何俊;張旸;張洪波 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B30/10;G16B40/00 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因組 變異 檢測 方法 裝置 | ||
本發(fā)明公開了一種基因組變異檢測方法及檢測裝置,涉及生物信息學研究領域,以解決現(xiàn)有基因組變異檢測效率低下、且檢測精度不高的問題。該方法包括:確定基因組的潛在變異區(qū)域,對落在潛在變異區(qū)域內(nèi)的測序序列進行局部組裝創(chuàng)建迭代DeBruijn圖,根據(jù)迭代DeBruijn圖得到單倍體;將測序序列與所有單倍體進行比對,將測序序列對應的最佳單倍體與潛在變異區(qū)域?qū)膮⒖夹蛄羞M行比對后,得到一組比對結果,采用預設變換規(guī)則對該組比對結果中的兩個比對結果進行變換,得到測序序列與潛在變異區(qū)域?qū)膮⒖夹蛄械男U龑R結果,根據(jù)測序序列與潛在變異區(qū)域?qū)膮⒖夹蛄械男U龑R結果,確定基因組的變異類型。
技術領域
本發(fā)明實施例涉及生物信息研究領域,尤其涉及一種基因組變異檢測方法及檢測裝置。
背景技術
隨著基因組測序成本的持續(xù)下降,高通量測序儀(如:Illumina Hiseq系列測序儀)產(chǎn)生的基因組測序序列(read)呈現(xiàn)爆照式增長,尤其是人類基因組測序序列的積累速度更為明顯,如何從大量基因組測序序列得到高質(zhì)量的基因組變異結果,成為一項富有挑戰(zhàn)性的工作。
目前,人們通常利用短序列比對軟件(如:Burrows Wheeler Aligner,BWA)將每條測序序列比對到參考序列(reference sequence)上,得到每條測序序列與參考序列的雙序列比對結果(包括測序序列相對于參考序列詳細的匹配、錯配、插入和刪除等信息),然后根據(jù)所有測序序列與參考序列的雙序列比對結果,得到基因組變異結果。但由于BWA等短序列比對軟件是把每個read單獨比對到參考序列上,并不考慮測序序列之間整體上是否對齊,很容易把原本屬于同一種變異類型的測序序列錯誤地比對成包含不同變異類型的測序序列,造成誤判。
為解決該問題,現(xiàn)有技術人員通常采用基因分析工具(英文:The GenomeAnalysis Toolkit,GATK)中的子模塊HaplotypeCaller(簡稱:HC)來進行基因組變異檢測,以消除測序序列間比對不齊造成的影響。其中,HC檢測主要包括下述4個步驟:1)確定基因組中的潛在變異區(qū)域(ActiveRegion);2)對每個潛在變異區(qū)域執(zhí)行局部組裝(localassemby),根據(jù)組裝后的序列以及kmer長度(Size)得到DeBruijn圖(DeBruijn graph),并對DeBruijn graph進行處理得到至少一個單倍體(haplotype);3)利用PairHMM計算每個read與每個haplotype的最佳比對、以及每個read與每個haplotype對應的條件概率P(read|haplotype);4)對每個“ActiveRegion”中的每個潛在變異位置,基于二倍體假設,計算出貝葉斯后驗概率Pr(D|G)最大的一對haplotypes,將該對haplotypes作為該潛在變異位置的變異結果,其中,G表示基因型(Genotype),D表示覆蓋潛在變異區(qū)域中的每個變異位置的測序序列。
雖然HC檢測能有效避免測序序列間不對齊造成的影響,但仍存在下述幾種問題:1)由于在上述local assembly階段使用了多個不同的kmer size,且對每個不同的kmersize分別建立一張DeBruijn graph并獨立地遍歷生成haplotypes,所以會導致haplotypes數(shù)目偏多,進而導致haplotypes跟參考序列進行Smith-Waterman(簡稱SW)比對的次數(shù)偏多,影響了運行時間。2)局部組裝精度不夠高;3)由于是基于二倍體假設,所以只支持二倍體變異,不支持多倍體變異,無法很好地支持多倍體變異檢測;4)即便在二倍體情況下,計算出的Pr(D|G)也不夠精準,例如:在二倍體假設下,覆蓋每個變異位置的測序序列,應該是一部分來自于H1,剩下一部分來自于H2,且每個測序序列間相互獨立,所以Pr(D|G)的最大值應該是來自于覆蓋每個變異位置的測序序列的最佳分割:一部分來自H1,剩下一部分來自H2,且連乘的積最大,然而,GATK只是通過下述計算公式,通過計算均值的連乘來近似得到Pr(D|G):
所以,由上可知現(xiàn)有HC基因組變異檢測方法運行時間較長,效率低下,且檢測精度不高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經(jīng)華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611073982.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





