[發明專利]評估和校驗三代測序的序列組裝結果的方法與裝置在審
| 申請號: | 201711114931.4 | 申請日: | 2017-11-13 |
| 公開(公告)號: | CN107895104A | 公開(公告)日: | 2018-04-10 |
| 發明(設計)人: | 鄧天全 | 申請(專利權)人: | 深圳華大基因科技服務有限公司 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 北京紀凱知識產權代理有限公司11245 | 代理人: | 關暢,張立娜 |
| 地址: | 518083 廣東省深圳市鹽*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 評估 校驗 三代測序 序列 組裝 結果 方法 裝置 | ||
本發明公開了一種評估和校驗三代測序的序列組裝結果的方法與裝置。本發明所提供的評估三代測序的序列組裝結果的方法包括:二代序列與三代組裝結果比對;低覆蓋度區域延伸與選取,獲得延伸后序列;三代序列與延伸序列比對;堿基覆蓋深度統計;組裝結果標記。通過本發明可以篩選出三代組裝結果中質量不是太高的區域,并將其標注出來。在后續的物種研究中,如果需要使用到這些質量不高的區域有提醒的功能,及為后續的改進提供快速的篩選手段。同時也能證明三代組裝結果的準確性和質量,能提高組裝結果的準確性。
技術領域
本發明屬于基因組測序領域,涉及一種評估和校驗三代測序的序列組裝結果的方法與裝置。
背景技術
重疊群(contig)是由序列(reads)通過對重疊(overlap)區域拼接組裝成沒有間隙(gap)的序列段;骨架序列(scaffold)通過雙末端位置信息確定出的重疊群(contig)排列,中間有gap。把組裝出的contigs或scaffolds從大到小排列,當其累計長度剛剛超過全部組裝序列總長度50%時,最后一個contig或scaffold的大小即為N50的大小,N50對評價組裝序列的連續性、完整性有重要意義;N70和N90的計算方法與N50類似,只是百分數變為70%或90%。
二代測序由于讀長的限制(一般為50bp-300bp),采用拼接的兩種算法OLC和DBG都無法跨過比較長的重復區域,在組裝時遇到這些重復區域都會被斷開。雖然可以采用不同梯度大片段(比如2k,5k,10k,20k,40k等)數據利用雙末端位置的比對關系把兩個重疊群連接起來拼接成骨架序列(Scaffold),但Contig N50長度還是不長(一般為1k-70k)。
三代測序—Pacbio單分子實時測序(SMRT)技術由于具有超長讀長(平均讀長一般在8k-13k)的特點,能對高重復序列、轉座子區域與高度變異區域等基因組復雜區域進行高水平組裝,使得重疊群(Contig)N50和骨架序列(Scaffold)N50長度更長,組裝結果更完整準確,隨著三代測序成本越來越低,三代組裝基因組項目也越來越多。目前三代組裝軟件主要有PBCR、Falcon、MECAT、CANU、HGAP等,這些軟件都包含自糾錯和糾錯后序列自組裝的功能。由于三代序列平均錯誤率高達15%,故這些軟件都需要先進行自糾錯,再利用糾錯后序列進行組裝,最后得到組裝結果,由于組裝結果可能存在一定的單堿基錯誤或結構變異,所以后續需要用三代原始序列進行Polish糾錯,及用二代序列進行Pilon糾錯,得到最終的三代組裝結果,三代組裝的主要過程如圖1所示。
在得到組裝結果后,我們會通過不同的方法對組裝結果的質量進行評價。比如:(一)利用同一個個體的BAC/Fosmid序列(或者同種物種的BAC/Fosmid序列),通過與基因組序列比對,檢驗基因組常染色質覆蓋度,如圖2所示,上面是一段Fosmid序列,下面是我們的組裝結果序列,它們比對的效果非常好,證明這段Fosmid序列已經被組裝出來且效果非常好。(二)利用已有的EST序列,通過與基因組序列比對,檢驗基因區的覆蓋度。(三)單堿基覆蓋深度評估,二代序列比對到三代組裝結果并統計三代組裝結果每個堿基的覆蓋深度。如圖3所示,二代序列的平均覆蓋深度80X,X軸代表不同區間的覆蓋深度,Y軸代表不同區間覆蓋深度對應的比例,從此圖來看,小于10X覆蓋深度的比例越低,反應組裝結果單堿基的組裝質量越高。(四)GC含量分布分析。如圖4所示,橫坐標是GC含量,縱坐標是平均深度。二代序列比對到三代組裝結果并統計三代組裝結果每個堿基的覆蓋深度,以10kb為窗口無重復進行計算。根據這個圖我們可以分析這個物種的GC含量,可以對該樣品是否有外源DNA污染進行判斷。另外也可以看出我們部分區域的組裝質量效果。圖4(B)結果顯示組裝結果GC含量深度分布正常,但圖4(A)所示,有部分低深度覆蓋區域,造成此現象的可能有兩個原因,一是三代序列在這些區域覆蓋深度較低,導致組裝結果存在一定的堿基錯誤或缺失,雖然經過三代polish糾錯和二代pilon糾錯,但并沒有糾正過來;二是這部分區域組裝是準確的,三代在這部分區域覆蓋深度很高,但二代在這部分區域覆蓋深度較低,可能由于測序錯誤導致比對不到這部分區域,或者這部分區域沒有測到或測到的部分較低。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳華大基因科技服務有限公司,未經深圳華大基因科技服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711114931.4/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





