[發(fā)明專利]一種二代序列基因組重疊群的組裝方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710214128.1 | 申請日: | 2017-04-01 |
| 公開(公告)號: | CN108660197A | 公開(公告)日: | 2018-10-16 |
| 發(fā)明(設(shè)計)人: | 鄧天全;高強(qiáng);楊林峰;楊鑫;盛琴;陳世璇;岳震;霍守江;肖黎 | 申請(專利權(quán))人: | 深圳華大基因科技服務(wù)有限公司 |
| 主分類號: | C12Q1/6869 | 分類號: | C12Q1/6869;C40B40/08;C12M1/34 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 鞏克棟 |
| 地址: | 518083 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 重疊群 基因組 組裝 末端測序 拼接 文庫 超聲 建庫 切膠 打斷 片段凝膠純化 插入片段 拼接軟件 序列組裝 延長序列 重疊關(guān)系 重疊區(qū)域 測序 構(gòu)建 | ||
本發(fā)明涉及基因組重疊群的組裝方法,特別涉及一種二代序列基因組重疊群的組裝方法和系統(tǒng),所述方法包括如下步驟:(1)提取樣品基因組并超聲打斷;(2)將步驟(1)超聲打斷的片段凝膠純化并切膠,以構(gòu)建不同插入片段的文庫;(3)將步驟(2)得到的文庫進(jìn)行二代雙末端測序;(4)將各個文庫的二代雙末端測序的讀1和讀2進(jìn)行拼接;(5)將拼接后的序列進(jìn)行序列組裝;其中,所述二代雙末端測序的讀1和讀2的序列有5bp以上的重疊區(qū)域。本發(fā)明方法和系統(tǒng)通過實驗建庫、根據(jù)測序讀長選取建庫和切膠范圍,并結(jié)合拼接軟件進(jìn)行拼接,達(dá)到了延長序列讀長的目的,用延長后的序列根據(jù)重疊關(guān)系進(jìn)行重疊群組裝,達(dá)到提高重疊群組裝的指標(biāo)和準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及生物技術(shù)領(lǐng)域,具體涉及基因組重疊群的組裝方法,特別涉及一種二代序列基因組重疊群的組裝方法和系統(tǒng)。
背景技術(shù)
羅氏454測序系統(tǒng)的測序原理是基于焦磷酸測序法,依靠生物發(fā)光對DNA序列進(jìn)行檢測,在DNA聚合酶,ATP硫酸化酶,熒光素酶和雙磷酸酶的協(xié)同作用下,羅氏454測序系統(tǒng)將引物上每一個dNTP的聚合與一次熒光信號釋放偶聯(lián)起來。通過檢測熒光信號釋放的有無和強(qiáng)度,就可以達(dá)到實時測定DNA序列的目的。此技術(shù)不需要熒光標(biāo)記的引物或核酸探針,也不需要進(jìn)行電泳,具有分析結(jié)果快速、準(zhǔn)確、高靈敏度和高自動化的特點。羅氏454測序序列平均長度一般為500bp左右,最長為700bp左右,其長度相對于目前二代測序Hiseq 2500的250bp和Miseq的300bp來說要長的多,但其在2016年年中已經(jīng)停止服務(wù)。
目前基因組組裝項目以全基因組鳥槍法測序(Whole-genome shotgunsequencing,WGS)為主流設(shè)計方案,WGS是一種分析大片段基因組DNA序列的策略,將大片段DNA(如噬菌體文庫中約40kb長或細(xì)菌人工染色體所含350kb長的DNA插入片段)隨機(jī)切成許多1~1.5kb的小片段,分別對其測序,然后借助序列重疊區(qū)域拼接成全段序列。
重疊群(Contig)組裝主要采用德布魯因圖(de Brujin graph)算法進(jìn)行拼接。但由于基因組中普遍存在重復(fù)序列,此組裝算法在遇到重復(fù)區(qū)域無法跨過時就會斷掉,重復(fù)比例比較高的基因組組裝會存在大量長度比較短的重疊群(Contig)。
把組裝出的重疊群(Contig)從大到小排列,當(dāng)其累計長度剛剛超過全部組裝序列總長度50%時,最后一個重疊群(Contig)的大小即為N50的大小,N50對評價基因測序的完整性有重要意義。N60即把組裝出的重疊群(Contig)從大到小排列,當(dāng)其累計長度剛剛超過全部組裝序列總長度60%時,最后一個重疊群(Contig)的大小即為N60的大小。N70、N80、N90以此類推。
而由于454序列讀長比較長,可以利用相互重疊關(guān)系進(jìn)行拼接,相比德布魯因圖算法來說可以跨過更多的重復(fù)區(qū)域,組裝出長度比較短的Contig會更少,指標(biāo)會更高。
綜上所述,序列讀長對基因組組裝效果有重要的影響,如何通過實驗建庫和測序讀長選取,并結(jié)合拼接軟件進(jìn)行拼接以達(dá)到延長序列讀長,接近或超過454序列的平均長度就成為一個亟待解決的問題。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足及實際的需求,本發(fā)明提供一種二代序列基因組重疊群的組裝方法和系統(tǒng),本方法和系統(tǒng)能夠延長二代序列的平均長度并提高基因組重疊群組裝的指標(biāo)和準(zhǔn)確性。
為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
第一方面,本發(fā)明提供一種二代序列基因組重疊群的組裝方法,包括如下步驟:
(1)提取樣品基因組并超聲打斷;
(2)將步驟(1)超聲打斷的片段凝膠純化并切膠,以構(gòu)建不同插入片段的文庫;
(3)將步驟(2)得到的文庫進(jìn)行二代雙末端測序;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳華大基因科技服務(wù)有限公司,未經(jīng)深圳華大基因科技服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710214128.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





