[發明專利]檢測基因組結構變異的方法、計算設備和存儲介質有效
| 申請號: | 202110278208.X | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN112669902B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 楊旗;張鈺;孫懷玉 | 申請(專利權)人: | 北京貝瑞和康生物技術有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B40/30;G16B45/00 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 黃倩 |
| 地址: | 102299 北京市昌平區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢測 基因組 結構 變異 方法 計算 設備 存儲 介質 | ||
本發明提供了一種用于檢測基因組SV的方法、計算設備和計算機可讀存儲介質。該方法包括:基于基因組的測序序列的SV信號構建斷點末端區間圖;為斷點末端區間圖的每條邊構建一個斷點末端圖并且確定一個或多個斷點末端列表;對每個斷點末端列表推測第一候選SV;對每個斷點末端列表的測序序列進行局部組裝以獲取局部組裝序列集合,并且檢測第二候選SV集合;響應于確定第一候選SV包含于第二候選SV集合中,將第二候選SV集合確定為候選SV集合;響應于確定第一候選SV不包含于第二候選SV集合中,將第一候選SV和第二候選SV集合的并集確定為候選SV集合;以及基于所有斷點末端列表的所有候選SV集合確定基因組SV。
技術領域
本發明概括而言涉及生物信息領域,并且具體地,涉及一種用于檢測基因組結構變異的方法、計算設備和計算機存儲介質。
背景技術
結構變異(structure variation, SV)是指基因組中長度在50bp(堿基)及以上的缺失(deletion)、插入(insertion)、重復(duplication)、倒位(inversion)和易位(translocation)。結構變異是人類基因組重要的變異來源,與種群多樣性、進化、遺傳疾病和腫瘤有密切的關系。
與單核苷酸變異(SNV)和小的INDEL(小于50bp的插入和缺失)相比,結構變異涉及的二代序列比對情況更復雜,比對準確性更低。目前,已經有多種序列比對信息用于結構變異的檢測,包括序列比對內部的插入和缺失、切分比對(split-mapping)、軟剪切(soft-clipped)、異常配對序列(discording paired reads)、序列邊緣比對質量低、雙端序列單端比對(配對的兩條序列中僅1條可以很好地比對到參考基因組)。切分比對是指一條測序序列比對到參考基因組時被切分為多段比對到參考基因組上的情況。軟剪切是指測序序列比對到參考序列時,末端部分子序列比對到參考基因組的其他位置或沒有比對到參考基因組。BAM文件使用CIGAR記錄軟剪切,例如CIGAR:10S140M 表示序列的頭部有10個堿基發生了軟剪切。
根據是否使用組裝來檢測結構變異,將結構變異檢測軟件分為兩類。第一類結構變異檢測軟件不具有組裝特性,該類可以利用上述比對信息中的幾種,例如DELLY使用基于圖論的最大團查找算法對候選變異進行聚類和對單條序列中未比對的部分序列進行重新比對來檢測結構變異,LUMPY提供了一種概率模型對候選變異進行聚類和推測最可能的斷點位置。由于缺乏組裝功能,第一類結構變異檢測軟件檢測插入變異的能力低下,檢測的結構變異斷點準確性較差。第二類結構變異檢測軟件具有組裝特性,這類結構變異檢測軟件盡可能多的使用上述比對信號,同時使用了局部組裝的方法檢測結構變異,例如Manta、SvABA、Gridss。第二類結構變異檢測軟件相對第一類軟件,提升了插入變異的檢測能力和檢測結構變異斷點的準確性。
結構變異主要由插入和缺失組成,其他類型的結構變異比較稀有。與檢測缺失相比,使用二代測序技術檢測插入更加困難。首先,切分比對可以指示長片段序列缺失,但是當序列插入的長度接近測序讀長時切分比對指示序列插入的能力下降為0。其次,插入片段長度(insert size)異常的配對序列可以用于檢測序列缺失,但是無法找到具有統計差異的指示序列插入的插入片段長度異常的配對序列。最后,即使使用局部組裝算法,當插入序列的長度接近2倍的測序文庫插入片段長度時,插入的檢出能力接近0。插入片段是指測序的目標DNA/RNA片段,測序之前通常需要對DNA/RNA序列進行片段化然后在兩端加上接頭(adaptor),因此將兩個接頭中間的目標DNA/RNA片段稱為插入片段。二代雙端測序(paired-end sequencing)技術從插入片段的兩端進行檢測,得到配對(paired)的兩條序列。插入片段長度是指插入片段的長度。插入片段的實際物理長度在長度大于配對序列長度之和時無法直接通過測序數據得到。然而,將配對序列比對到參考基因組后,可以通過計算配對序列兩端的距離計算插入片段長度,發生結構變異時可能會導致計算得到的插入片段長度異常。異常配對是指計算得到的插入片段長度過長或者配對序列的方向異常(不是正向-反向配對)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京貝瑞和康生物技術有限公司,未經北京貝瑞和康生物技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110278208.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種維修性分析可視化顯示方法及系統
- 下一篇:對象推薦模型訓練方法以及裝置





