[發明專利]一種組裝基因組序列的方法和系統在審
| 申請號: | 201410758244.6 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104531848A | 公開(公告)日: | 2015-04-22 |
| 發明(設計)人: | 詹東亮;張姝;蔡慶樂;何榮軍;郝美榮;梁倩;韓雪蓮;劉三陽;王軍一 | 申請(專利權)人: | 杭州和壹基因科技有限公司 |
| 主分類號: | C12Q1/68 | 分類號: | C12Q1/68;C12M1/00 |
| 代理公司: | 杭州中成專利事務所有限公司 33212 | 代理人: | 唐銀益 |
| 地址: | 310053 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 組裝 基因組 序列 方法 系統 | ||
技術領域
本發明涉及生物信息技術領域,尤其涉及一種組裝基因組序列的方法和系統。
背景技術
Illumina的二代測序技術,以其高能量和準確性,成為了很多科研工作地的首選平臺,目前它的平均讀長為100bp~300bp,由于它的高能量、較低成本,極大地推進了生物信息學的發展,有非常多的基因組是基于這個平臺進行研究的。但是由于讀長的局限性,同時復雜基因組中包含著許多高GC,高度重復的區域,Illumina在這些基因組的組裝上表現并不理想。
PacBio?RSII是目前市場上應用最成熟的三代測序平臺,它的平均測序讀長從一開始的2k到目前的14k,可以跨越大部分的重復區域,在基因組的組裝中有極大的優勢,極大地克服了二代讀長短的缺點,目前它非常成熟地運用在微生物完成圖的拼接中。
但是,由于于單分子實施測序的錯誤率相對較高,單次測序錯誤率15%,循環測序誤差8%左右,其準確度與第二代測序技術有很大的差距,傳統的糾錯方法非常耗計算資源,大基因組的計算量非常巨大,使得目前只有少數機構能承能使用這種技術。
發明內容
本發明的目的是解決以上提出的問題,提供一種組裝基因組序列的方法和系統,將第二代測序技術所得的高精度短片段序列數據和單分子實時測序所得長片段序列數據結合在一起進行基因組序列的組裝,提高組裝效率和準確率。
一方面,本發明提供了一種組裝基因組序列的方法,包括以下步驟:
(1)利用第二代測序技術對樣品進行測序,獲得高精度短片段序列;
(2)對獲得的所述高精度短片段序列進行拼接,獲得一個高精度的框架圖;
(3)利用單分子測序技術對與上述同樣來源的樣品進行測序,獲得所述同樣來源樣品的三代測序數據;
(4)將步驟(3)獲得的所述三代測序數據比回所述框架圖中,得到三代測序數據和框架圖的詳細對比信息;
(5)利用步驟(4)獲得的詳細對比信息對所述三代測序數據進行聚類并構建基因組骨架,對所述基因組骨架進行糾錯,利用高精度短片段序列的大片斷構建scaffold,小片斷數據進行補洞,得到基因組精細圖。
作為優選,所述步驟(4)包括:利用BWT和LCS算法,將步驟(3)獲得的所述三代測序數據比回所述框架圖中,得到三代測序數據和框架圖的詳細對比信息。
作為優選,所述步驟(5)中對所述基因組骨架進行糾錯包括:
A、使用HGAP中自帶的糾錯模塊,使用所述三測序代數據進行自糾錯;
B、使用LoRDEC軟件利用Illumina第二代測序技術獲得的高精度短片段序列來糾正所述基因組骨架。
作為優選,所述的第二代測序技術采用的是HiSeq測序儀,所述的單分子測序技術采用的是PacBio?RSII測序儀。
作為優選,所述步驟(2)采用的是SOAPdenovo2軟件對獲得的所述高精度短片段序列進行拼接。
作為優選,所述步驟(5)使用SSPACE軟件來構建scaffold,最后使用GapCloser來進行補洞。
另一方面,本發明還提供了一種組裝基因組序列的系統,包括:
接收模塊Ⅰ,用于接收利用第二代測序技術獲得的樣品的高精度短片段序列;
拼接模塊Ⅰ,與接收模塊Ⅰ相連,用于對獲得的樣品的高精度短片段序列進行拼接,獲得高精確度的框架圖;
接收模塊Ⅱ,用于接收利用單分子測序技術獲得的樣品的長片段序列;
定位模塊,與所述拼接模塊Ⅰ和所述接收模塊Ⅱ相連,用于將所述三代測序數據比對回所述框架圖上;
骨架模塊,利用所述三代測序數據與所述框架圖的詳細對比信息系對所述三代測序數據進行聚類構圖,搭建基因組骨架;
糾錯模塊Ⅰ,與骨架模塊相連,利用骨架模塊中的聚類關系,使用HGAP糾錯和三代測序數據進行自糾錯。
作為優選,該系統還包括:
糾錯模塊Ⅱ,所述的糾錯模塊Ⅱ與糾錯模塊Ⅰ相連,用于使用LoRDEC軟件和所述高精度短片段序列對所述基因組骨架進行糾錯;
Scaffold&補洞模塊,利用高精度短片段序列進行scaffold構建和補洞,生成最終的基因組精細圖。
本發明的有益效果如下:
1、本發明利用二代測序得到的高精度短片段序列進行組裝,再結合10X的三代數據
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州和壹基因科技有限公司,未經杭州和壹基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410758244.6/2.html,轉載請聲明來源鉆瓜專利網。





