[發明專利]用于二倍體基因組組裝和單倍型序列重建的方法、軟件和系統有效
| 申請號: | 201680030485.6 | 申請日: | 2016-05-23 |
| 公開(公告)號: | CN107615283B | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | C·金;P·佩魯索;D·蘭克 | 申請(專利權)人: | 加利福尼亞太平洋生物科學股份有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/40;G16B30/20;C12P19/34 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 陶家蓉;余穎 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 二倍體 基因組 組裝 單倍型 序列 重建 方法 軟件 系統 | ||
示例性實施方案提供了用于二倍體基因組組裝和單倍型序列重建的方法和系統。所述示例性實施方案的各方面包括:從兩個單倍型的讀段產生融合組裝圖,所述融合組裝圖包括所鑒別的主要重疊群和相關重疊群;使用已定相的讀段和所述已定相的讀段的感知到有單倍型的重疊來產生單倍型特異組裝圖;將所述融合組裝圖和所述單倍型特異組裝圖合并來產生合并的組裝單倍型圖;從所述合并的組裝單倍型圖去除交叉定相的連線以產生最終單倍型已分辨的組裝圖;以及從所述最終單倍型已分辨的組裝圖重建單倍型特異重疊群,從而產生單倍型特異重疊群。
本國際PCT專利申請要求于2015年5月26日提交的美國臨時專利申請號62/166,605的優先權的權益,并且涉及于2014年12月18日提交的名為“String Graph Assemblyfor Polyploid Genomes”的美國專利申請序列號14/574,887,所述專利申請已被轉讓給本申請的受讓人并且以引用的方式并入本文。
背景技術
生物分子序列測定尤其是相對于核酸和蛋白質樣品的進步已徹底改變了細胞和分子生物學領域。受到自動化測序系統的發展的推動,現在已經有可能對樣品核酸的混合群體進行測序。然而,必須謹慎地監測序列信息的質量,并且所述質量可能會因與生物分子本身或所使用的測序系統相關的許多因素而受損,所述因素包括生物分子的組成(例如,核酸分子的堿基組成)、實驗和系統噪聲、觀察到的信號強度的變化以及反應效率的差異。因此,必須實施過程來分析和改進來自這類測序技術的數據的質量。
除了會影響所產生的序列讀段的總準確度之外,這些因素還會使堿基調用作為真正變體或可替代地誤調用(例如,序列讀段中的插入、缺失或失配錯誤)的指定復雜化。例如,在二倍體生物中,染色體可以具有在序列上不同于同源染色體的基因座。當對這些基因座進行測序時,堿基調用在同源染色體之間會出現差異。重要的是能夠確定在同源染色體之間有所不同的堿基調用是同源物之間的真正變異,還是僅為測序錯誤。此外,個體中的病毒群體在所述群體中,尤其是在高突變性病毒諸如HIV中的個別病毒基因組之間可能會具有許多變異。能夠鑒別具有不同來源(例如,不同染色體或基因組來源)的不同測序讀段對于能夠準確地表征核酸的混合群體來說是至關重要的。在產生100%準確的讀段的理論測序平臺上,讀段可以簡單地用簡單的字符串匹配算法來進行相互比較。讀段之間的任何差異都指示真正變異以及因此不同來源。然而,任何真實世界原始測序數據都可能含有誤差,因此簡單的字符串匹配算法方法是不夠的。
字符串圖是可以用于對基因組建模,例如以幫助從測序數據組裝基因組的數據結構。用字符串圖對基因組進行建模通常具有優于用重疊圖或de Brujin圖進行建模的優點。例如,可以改進序列和/或共有誤差的校正以及對異源區域的注釋。有關字符串圖構建的進一步的細節請參見Fragment assembly string graph,Myers, E. W. (2005)Bioinformatics 21(期,增刊2):ii79-ii85),所述參考文獻以引用的方式并入本文。
在字符串圖內,頂點(又稱為節點)是序列片段的起點和/或終點,并且連線是兩個頂點之間的序列片段。字符串圖算法的核心是將兩個片段之間的每個“適當的重疊”(其中兩個讀段的每一個當中只有一部分彼此重疊,即,第一讀段在3’端延伸超出重疊并且第二讀段在5’端延伸超出重疊)轉換為字符串圖結構。這個過程包括鑒別處于重疊區域邊緣處的頂點;以及將連線延伸至重疊片段的非重疊部分。根據序列的方向來標記連線,并且通過傳遞規約來去除冗余的連線以產生字符串圖。對于雙鏈單倍體樣品,例如大腸桿菌基因組,這種梳理會產生兩個互補的重疊群,一個是關于正向鏈并且一個是關于反向鏈,它們可以進一步簡化為表示基因組組件的單一重疊群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于加利福尼亞太平洋生物科學股份有限公司,未經加利福尼亞太平洋生物科學股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680030485.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:產量數據校準方法
- 下一篇:用于提供個體化放射療法的系統和方法





