[發(fā)明專利]一種基于長(zhǎng)讀數(shù)和contig分類的scaffolding方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810642753.0 | 申請(qǐng)日: | 2018-06-21 |
| 公開(kāi)(公告)號(hào): | CN108830047A | 公開(kāi)(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 羅軍偉;王俊峰;張波;張霄宏;賈利琴 | 申請(qǐng)(專利權(quán))人: | 河南理工大學(xué) |
| 主分類號(hào): | G06F19/26 | 分類號(hào): | G06F19/26;G06F19/22 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 454000 河南*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 簡(jiǎn)單路徑 非重復(fù) 比對(duì) 重復(fù) 集合 比對(duì)結(jié)果 線性規(guī)劃 真實(shí)數(shù)據(jù) 分類 構(gòu)建 沖突 表現(xiàn) | ||
本發(fā)明公開(kāi)了一種基于長(zhǎng)讀數(shù)和contig分類的scaffolding方法。本方法首先把長(zhǎng)讀數(shù)比對(duì)到contig集合上,根據(jù)比對(duì)結(jié)果生成局部scaffold集合。一條局部scaffold是由比對(duì)到同一條長(zhǎng)讀數(shù)的contig構(gòu)成。基于每條contig在局部scaffold中出現(xiàn)的位置信息,把所有的contig分成兩類,一類是重復(fù)contig,另一類是非重復(fù)contig。構(gòu)建只包含非重復(fù)contig的scaffold圖,圖中每一個(gè)節(jié)點(diǎn)代表一個(gè)非重復(fù)contig。接著利用線性規(guī)劃方法消除scaffold圖中的方向和順序沖突,并使scaffold圖中只包含簡(jiǎn)單路徑,其中每條簡(jiǎn)單路徑對(duì)應(yīng)一條scaffold。然后把重復(fù)contig插入到scaffold中,形成最終的scaffolding結(jié)果。本發(fā)明簡(jiǎn)單易用,在不同的真實(shí)數(shù)據(jù)上表現(xiàn)出良好的scaffolding結(jié)果,較其它scaffolding方法具有更高的準(zhǔn)確性和連續(xù)性。
技術(shù)領(lǐng)域
本發(fā)明涉及生物信息學(xué)的序列組裝領(lǐng)域,特別是一種基于長(zhǎng)讀數(shù)和contig分類的scaffolding方法。
背景技術(shù)
基因組一般是指全部編碼和非編碼的脫氧核糖核酸(DNA)序列,它是由四種堿基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥(niǎo)嘌呤(G)組成的序列,即基因組序 列是一個(gè)字符串,這個(gè)字符串中只包含四個(gè)字符A,T,G,C。在實(shí)際基因組序列中也 包含另一個(gè)字符N,代表該位置的堿基無(wú)法確定。基因組DNA序列包含了遺傳和調(diào)控 信息,引導(dǎo)生物發(fā)育與生命機(jī)能運(yùn)作。在基礎(chǔ)生物學(xué)研究和眾多應(yīng)用領(lǐng)域中,如診斷、 生物技術(shù)、法醫(yī)生物學(xué)、生物系統(tǒng)學(xué)中,完整和正確的基因組DNA序列已成為不可缺 少的知識(shí)。通過(guò)基因組測(cè)序,可以獲得大量基因組序列上堿基序列片段(讀數(shù)或read)。 序列組裝是通過(guò)這些得到的序列片段還原整個(gè)基因組DNA序列的方法。而由于重復(fù)區(qū)、 測(cè)序錯(cuò)誤以及測(cè)序不均衡等問(wèn)題,序列組裝方法往往先生成一些比較獨(dú)立和零散的序列 片段,即contig,這些contig可能分布在基因組DNA序列的任意區(qū)域,并且由于DNA 序列是雙鏈結(jié)構(gòu),這些contigs可能處在雙鏈上的任意一條鏈上。scaffolding方法就是確 定這些contigs之間的方向和順序關(guān)系,進(jìn)而產(chǎn)生更長(zhǎng)的scaffold。scaffolding會(huì)使序列 組裝結(jié)果更加連續(xù)和完整,這有助于后續(xù)基因識(shí)別,基因組比對(duì),結(jié)構(gòu)變異檢測(cè)等研究, 是序列組裝研究中的熱點(diǎn)之一。
目前,以Illumina/Solexa以及AB/SOLid公司為代表的第二代測(cè)序技術(shù)在顯著降低 成本的同時(shí),單次運(yùn)行也能夠產(chǎn)生海量和錯(cuò)誤率較低的讀數(shù)。因此,第二代測(cè)序技術(shù)在國(guó)內(nèi)外得到了廣泛的應(yīng)用。由第二代測(cè)序技術(shù)得到的雙端短讀數(shù)(paired reads)是來(lái)自一段較長(zhǎng)原始基因組序列片段兩端的兩個(gè)序列片段。雙端短讀數(shù)的間距(insert size)可以達(dá)到數(shù)千堿基,所以雙端短讀數(shù)能夠跨過(guò)一段較長(zhǎng)的區(qū)域并克服序列組裝中的部分重復(fù)區(qū)問(wèn)題,因此基于雙端短讀數(shù)的scaffolding方法獲得了研究人員廣泛的關(guān)注。其步驟一般是先利用已有的序列組裝工具生成contig,然后把雙端短讀數(shù)比對(duì)到contig上,再 通過(guò)比對(duì)信息構(gòu)建scaffold圖(scaffold graph或者bidiercted graph),進(jìn)而推斷contigs之間的方向和順序關(guān)系。
隨著測(cè)序技術(shù)的迅速發(fā)展,速度更快通量更高的第三代測(cè)序技術(shù)正在逐步完善成熟。第三代測(cè)序技術(shù)主要有太平洋生物科學(xué)公司(Pacific Biosciences)的單分子實(shí)時(shí)測(cè)序技術(shù)和牛津納米技術(shù)公司(OxfordNanopore Technology)的納米孔單分子技術(shù)。第三 代測(cè)序技術(shù)所產(chǎn)生的長(zhǎng)讀數(shù)長(zhǎng)度可以達(dá)到數(shù)萬(wàn)堿基,這些長(zhǎng)讀數(shù)可以跨過(guò)基因組中大部 分的重復(fù)區(qū),進(jìn)而幫助研究人員獲得完整的基因組序列。由于長(zhǎng)讀數(shù)的長(zhǎng)度較長(zhǎng),能夠 跨過(guò)大部分重復(fù)區(qū),但是長(zhǎng)讀數(shù)的測(cè)序錯(cuò)誤率較高,一般達(dá)到15%左右。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南理工大學(xué),未經(jīng)河南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810642753.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹(shù)結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 一種簡(jiǎn)單的自適應(yīng)快收斂標(biāo)記交換路徑環(huán)路預(yù)防技術(shù)
- 簡(jiǎn)單泵
- 光通信網(wǎng)絡(luò)系統(tǒng)
- 存儲(chǔ)XML數(shù)據(jù)的方法、執(zhí)行XML查詢的方法及其裝置
- 在多約束下求取網(wǎng)絡(luò)中多條最短簡(jiǎn)單路徑的啟發(fā)式方法
- 導(dǎo)航路徑規(guī)劃方法及導(dǎo)航裝置
- 一種溯源表達(dá)式的責(zé)任分析方法
- 簡(jiǎn)單層級(jí)標(biāo)簽交換路徑
- 一種利用簡(jiǎn)單路徑特征優(yōu)化樹(shù)狀結(jié)構(gòu)數(shù)據(jù)的方法及系統(tǒng)
- 一種自動(dòng)泊車路徑規(guī)劃方法及系統(tǒng)





