[發明專利]評估和校驗三代測序的序列組裝結果的方法與裝置在審
| 申請號: | 201711114931.4 | 申請日: | 2017-11-13 |
| 公開(公告)號: | CN107895104A | 公開(公告)日: | 2018-04-10 |
| 發明(設計)人: | 鄧天全 | 申請(專利權)人: | 深圳華大基因科技服務有限公司 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 北京紀凱知識產權代理有限公司11245 | 代理人: | 關暢,張立娜 |
| 地址: | 518083 廣東省深圳市鹽*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 評估 校驗 三代測序 序列 組裝 結果 方法 裝置 | ||
1.一種評估三代測序的序列組裝結果的方法,包括如下步驟:
(1)將同一樣本的二代測序序列與三代測序的序列組裝結果進行對比;
(2)根據步驟(1)的比對結果,從所述三代測序的序列組裝結果中挑選出在所述二代測序序列中平均覆蓋深度低的區域,然后將所選的每一個區域均在所述三代測序的序列組裝結果中進行延伸,從而獲取若干個延伸后序列;
所述平均覆蓋深度低指的是平均覆蓋深度低于“低深度定義閥值”,為如下任一:
(a1)當所述二代測序的平均覆蓋深度為30X時,所述“低深度定義閥值”為3X;
(a2)當所述二代測序的平均覆蓋深度大于30X且小于等于50X時,所述“低深度定義閥值”為4-5X;
(a3)當所述二代測序的平均覆蓋深度大于50X且小于等于70X時,所述“低深度定義閥值”為6-8X;
(a4)當所述二代測序的平均覆蓋深度大于70X時,所述“低深度定義閥值”為9-10X;
(3)將三代測序序列與步驟(2)獲得的每一個延伸后序列進行單獨比對;
(4)根據步驟(3)的比對結果,統計步驟(2)中所選的每一個區域在所述三代測序序列中的平均覆蓋深度;
(5)根據步驟(4)的統計結果,確定步驟(2)中所選的每一個區域的組裝質量的高低,進而實現對所述三代測序的序列組裝結果的評估。
2.根據權利要求1所述的方法,其特征在于:所述步驟(1)為:將同一樣本的二代測序序列與三代測序的序列組裝結果進行對比,統計所述三代測序的序列組裝結果中每個堿基在所述二代測序序列中的覆蓋深度,進而以1-5kb為窗口,計算得到所述三代測序的序列組裝結果中每個窗口區域在所述二代測序序列中的平均覆蓋深度;
所述步驟(2)為:根據步驟(1)的結果,從所述三代測序的序列組裝結果中挑選出在所述二代測序序列中平均覆蓋深度低的全部窗口區域,然后將所選的每一個窗口區域均在所述三代測序的序列組裝結果中向前后各延伸10-40kb,從而獲取若干個延伸后序列;
所述步驟(3)為:將三代測序序列與步驟(2)獲得的每一個延伸后序列進行單獨比對;
所述步驟(4)為:根據步驟(3)的比對結果,統計步驟(2)中所選的每一個窗口區域在所述三代測序序列中的平均覆蓋深度;
所述步驟(5)為:根據步驟(4)的統計結果,按照如下對步驟(2)中所選的每一個窗口區域進行組裝質量高低的標記,進而評估所述三代測序的序列組裝結果的整體組裝質量:如果步驟(2)中所選的某一個窗口區域M在所述三代測序序列中的平均覆蓋深度小于等于5X,則將所述窗口區域M標記為“組裝質量相對較低的區域”;如果步驟(2)中所選的某一個窗口區域N在所述三代測序序列中的平均覆蓋深度大于5X,則將所述窗口區域N標記為“組裝質量相對較高的區域”。
3.根據權利要求2所述的方法,其特征在于:步驟(5)中,是按照如下評估所述三代測序的序列組裝結果的整體組裝質量的:所標記的所述“組裝質量相對較高的區域”的數量與所述“組裝質量相對較低的區域”和所述“組裝質量相對較高的區域”兩者總數量的比值越大,則所述三代測序的序列組裝結果的整體組裝質量越高;
步驟(2)中所選的窗口區域中如果連續2個以上同時被標記為“組裝質量相對較低的區域”,則將它們合并記成一個“組裝質量相對較低的區域”;如果連續2個以上同時被標記為“組裝質量相對較高的區域”,則將它們合并記成一個“組裝質量相對較高的區域”。
4.根據權利要求1-3中任一所述的方法,其特征在于:步驟(1)中,所述二代測序序列為二代高通量測序所得的原始數據經過過濾處理后的序列。
5.根據權利要求1-3中任一所述的方法,其特征在于:步驟(3)中,所述三代測序序列為未糾錯序列或者自糾錯序列。
6.根據權利要求1-3中任一所述的方法,其特征在于:步驟(1)中,所述二代測序的平均數據量達到基因組大小的30X以上。
7.根據權利要求1-3中任一所述的方法,其特征在于:所述二代測序的平均數據量達到基因組大小的50X以上。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳華大基因科技服務有限公司,未經深圳華大基因科技服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711114931.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





