[發明專利]一種基因組組裝方法有效
| 申請號: | 201811062858.5 | 申請日: | 2018-09-12 |
| 公開(公告)號: | CN109234267B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 梁承志;杜會龍 | 申請(專利權)人: | 中國科學院遺傳與發育生物學研究所 |
| 主分類號: | C12N15/10 | 分類號: | C12N15/10 |
| 代理公司: | 北京聯創佳為專利事務所(普通合伙) 11362 | 代理人: | 郭防 |
| 地址: | 100101 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基因組 組裝 方法 | ||
本發明公開了一種基因組組裝方法,包括:序列比較、序列延伸、完成延伸和去除冗余四個步驟。將全基因組的組裝在操作上分成兩個主要步驟:組裝單拷貝序列和組裝剩余的序列,簡化了實施過程,使整個方法變得快速高效,不易犯錯,并且能夠大大提高組裝序列片段的連續性,提高了組裝質量。通過利用本發明的方法組裝全基因組序列,快速高效,也更有利于復原整條染色體及整個基因組的序列。本發明的基因組組裝方法還可以用于基因組序列中空白區域的序列填充,特別是通過結合基因組光學圖譜信息或是染色體分組排序信息,組裝效果還會大大提高;以及用于判斷任意兩個序列之間是否有連接,或是估算兩個相鄰序列之間的距離。
技術領域
本發明涉及一種基因組組裝方法,屬于基因組組裝技術領域。
背景技術
測序儀通過對基因組片段的測序產生了隨機的讀出序列片段(讀段)。這些讀段在基因組上的分布是隨機的?;蚪M組裝的過程就是把這些讀段按照正確的順序排列和連接,組裝成堿基連續的DNA序列片段(連續片段),最終復原整條染色體及整個基因組的序列。這個組裝的過程一般包括三步:連續片段的組裝,有缺口的非連續片段的組裝,缺口的補齊?;蚪M組裝的困難來源于基因組存在的大量重復序列(即長度不定、序列相似或一樣的兩個/段或多個/段序列)。此外測序儀在實際測出讀段的過程中會產生錯誤,導致原來不一樣的序列變得一樣。若是沒有重復序列和測序錯誤,基因組的組裝就是一個很簡單的任務。重復序列在基因組中可分為兩個大類:串聯重復序列和散布重復序列。串聯重復是一組頭尾直接相連的非常相似的重復單位組成的序列,通過局部重復產生。典型的串聯重復序列包括rDNA、著絲粒重復序列等。散布重復序列是分布于基因組中不同位置的非局部重復序列。在有些重復序列中,串聯重復和非串聯重復序列都有,這些區域很長,形成復雜重復序列。測序產生的來源于不同重復序列拷貝的讀段具有序列上的相似性。目前單分子測序讀段的長度N50一般大于10-15kb,最長達到了100kb以上。若是一個重復序列加上其兩端的單拷貝序列一起被一條讀段全部覆蓋,則這個區域不存在組裝的問題。當前需要解決的重點是超出了讀段平均或N50長度的重復序列的組裝問題。但是由于重復序列的存在,而且由于測序錯誤,導致單拷貝序列的組裝在現有方法中也面臨組裝效率不高的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院遺傳與發育生物學研究所,未經中國科學院遺傳與發育生物學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811062858.5/2.html,轉載請聲明來源鉆瓜專利網。





