[發明專利]一種基于讀數和距離分布的基因組Denovo序列拼接方法有效
| 申請號: | 201410482300.8 | 申請日: | 2014-09-19 |
| 公開(公告)號: | CN104200133B | 公開(公告)日: | 2017-03-29 |
| 發明(設計)人: | 王建新;羅軍偉;李敏 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18 |
| 代理公司: | 長沙正奇專利事務所有限責任公司43113 | 代理人: | 馬強 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 讀數 距離 分布 基因組 denovo 序列 拼接 方法 | ||
技術領域
本發明涉及生物信息學領域,特別是一種基于讀數和距離分布的基因組De?novo序列拼接方法。
背景技術
基因組一般是指全部編碼和非編碼的脫氧核糖核酸(DNA)序列。DNA序列是遺傳信息的載體和蛋白質氨基酸序列合成的依據,并引導生物發育與生命機能運作。因此DNA序列是生命存在和發展的決定性因素,生命活動中發生的所有事情,都與DNA序列有著必不可分的聯系。在基礎生物學研究和眾多應用領域中,如診斷,生物技術,法醫生物學,生物系統學中,DNA序列已成為不可缺少的知識。基因組測序是指分析特定DNA片段的堿基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥嘌呤(G)的排列方式。測序技術是獲得完整基因組序列必要途徑。下一代測序技術(NGS)具有速度快,成本低,高通量等特點。De?novo序列拼接是在不知道基因組參考序列的情況下,利用由測序技術產生的序列片段(讀數或read)重新構建完整原始基因組序列的方法。如何設計有效地序列拼接方法構建連續和正確的原始基因組序列已經越來越引起人們的關注。
基因組的重復區是指在基因組序列中出現兩次或兩次以上序列片段。重復區的存在是造成序列拼接結果令人不滿意的最大原因,也是序列拼接組裝過程中最難解決的問題。目前通過下一代測序技術得到的讀數長度一般比較短,在100堿基對(bp)左右。這種短讀數可以分為兩種類型:單個讀數和雙端讀數。單個讀數是在測序的時候復制一個比較短的基因組片段,然后對該片段進行測序得到一個讀數。另外一種是在測序時,首先復制一個比較長的基因組片段,然后對基因組片段的左端和右端一段短區域進行測序,得到一對短讀數即雙端讀數。雙端讀數中每對讀數之間的間距稱為insertsize,即首先復制的基因組片段長度,一般假insertsize長短服從正態分布。由于雙端讀數的insertsize一般比讀數本身的長度長,可以跨過一些重復區,因此雙端讀數可以克服部分長度小于insertsize的簡單重復區。因此,現有的序列拼接方法往往利用雙端短讀數進行序列拼接。
序列拼接的步驟一般包括四個步驟:(1)數據的預處理階段。該階段通過特定的糾錯方法,移除或者改正測序數據中的錯誤堿基;(2)基因組連續片段(contigs)生成階段。該階段利用讀數集合拼接成contigs;(3)超長序列片段(scaffold)組裝階段。該階段使用雙端讀數,確定contigs之間的方向和位置關系,生成scaffolds。(4)填充空白區域(gap)階段。利用雙端讀數對scaffolds中的空白區域進行填充。
現有的序列拼接方法可以分為兩大類:
(1)De?Bruijn圖方法:基于De?Bruijn的拓撲結構,刪除測序錯誤的結點,選擇合適路徑確定contigs,形成scaffolds,并填充空白區域。Velvet方法首先建立De?Bruijn圖并對圖中的長結點進行標記,然后利用雙端讀數標注兩個長結點之間中間結點,通過這些標注的結點尋找一條正確的路徑連接這兩個長結點。但是Velvet針對一些短重復區卻無能為力,因為只有結點的長度大于等于讀數的長度時,才能夠進行標注,所以,這就容易漏掉了一些長度小于讀數長度的短結點。SOAPDenovo方法直接利用De?Bruijn圖中的長結點作為contig,然后再進行scaffolding和fillgap步驟,該方法并沒有利用雙端讀數對contig進行左右延展,這往往會造成contig太短,影響后續的步驟。ALLPath首先填充雙端讀數之間的空白區域,但是當雙端讀數在重復區時,往往會造成一些錯誤的填充。IDBA采用迭代的方法,由小到大的改變k-mer長度,并不斷的改變De?Bruijn圖,消除掉一些重復區和測序錯誤。但是,在一些重復區長度大于讀數長度時,無法通過改變kmer大小消除重復區。Paired-De?Bruijn圖方法在構建De?Bruijn圖的時候,利用雙端讀數對結點之間先后順序進行標注,但是當雙端讀數之間的距離變化比較大的時候,該方法的準確性會下降。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410482300.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





