[發明專利]一種將多個重疊組裝結果合并的方法有效
| 申請號: | 201710720525.6 | 申請日: | 2017-08-21 |
| 公開(公告)號: | CN107590363B | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 鄔三毛;肖世俊;郭文滸;陳楠生 | 申請(專利權)人: | 武漢菲沙基因信息有限公司 |
| 主分類號: | G16B30/20 | 分類號: | G16B30/20 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立;李蕾 |
| 地址: | 430075 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 將多個 重疊 組裝 結果 合并 方法 | ||
本發明涉及一種將多個重疊組裝結果合并的方法,其特征在于,包括以下步驟:獲得多個重疊組裝結果;根據所述多個重疊組裝結果的數據特征確定前景和背景;將所述前景與所述背景進行比對,得到比對結果;根據所述比對結果,將所述前景與所述背景合并,即得到合并后的重疊組裝結果。通過本發明的方法,可大大提高組裝過程中的連接效率,并在一定程度上提高連接準確率,并且本發明的可以廣泛適用于微生物、動物、植物的基因組輔助組裝,其運行速度也比同類方法和軟件更快。
技術領域
本發明涉及基因組測序與組裝領域,更特別地,涉及一種將多個重疊組裝結果合并的方法
背景技術
由于高通量測序產生的下機結果并非完整連續的基因組,而是一系列末端有重疊的片段,所以必須通過特定的組裝算法和軟件才能使這些片段組裝成相對完整的基因組。因此,組裝軟件和算法對高通量測序至關重要。
由于原始下機的數據量一般都很大(例如100X人的基因組約為300G),并且基因組本身存在很多復雜區域,使得組裝算法的設計變成了一個非常困難的領域。目前,雖然已經有很多組裝的算法和軟件可供使用,但其結果往往不夠令人滿意,原始數據中仍有很多有價值的信息未被組裝算法充分挖掘。此外,為了得到一個較好的組裝結果,往往不僅需要使用同一個軟件嘗試多種不同的參數,而且還要嘗試多個不同軟件,最終從這些結果中選擇一個N50最長,序列準確性最高的版本。然而,即使是測試了如此之多的參數和軟件,我們還是很難得到理論上最優的結果。為了得到更長的N50,我們需要以犧牲一定程度的準確性為代價,而為了得到較高的準確性,我們將很難同時獲得最長的N50,準確性和連續性的矛盾使二者很難兼得。另一方面,我們用多種參數和軟件組出的多個結果中,最終只保留了一個,其他所有的次優結果是被丟棄不用的,這實際上也是一種對計算資源和人力成本的浪費。
基于以上這些事實,我們可以總結出目前組裝過程存在的四個問題:①組裝結果還有進行一步提升空間,原始數據信息未被充分挖掘;②無法解決準確性和連續性的矛盾;③對復雜數據的適應性還不夠強,導致使用人員不得不進行大量調參測試。④由于不同算法的組裝策略不同,可能挖掘出不同的信息,這些信息有互補性,但是沒有任何任何一個算法能完全整合這些信息。
因此,需要一種能夠將多個組裝軟件的組裝結果合并的方法。
發明內容
為解決以上問題,本發明提供了一種將多個重疊組裝結果合并的方法,包括以下步驟:
S1:獲得多個重疊組裝結果;
S2:根據所述多個重疊組裝結果的數據特征確定前景和背景;
S3:將所述前景與所述背景進行比對,得到比對結果;
S4:根據所述比對結果,將所述前景與所述背景合并,即得到合并后的重疊組裝結果。
通過本發明的方法,可大大提高組裝過程中的連接效率,并在一定程度上提高連接準確率,并且本發明的可以廣泛適用于微生物、動物、植物的基因組輔助組裝,其運行速度也比同類方法和軟件更快。
在一個實施方案中,所述重疊組裝結果為至少三個;
在S2中,將所述重疊組裝結果中的一個確定為所述前景,將其余重疊組裝結果確定為背景,并根據所述多個背景的數據特征確定每個所述背景與所述前景的合并順序;
按所述合并順序,將所述前景依次與相應的背景進行比對、合并,每次合并后的重疊組裝結果作為下一次比對、合并的前景。
一般情況下,對多個不同的重疊組裝結果進行合并,以集合不同的組裝方法和軟件的優點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢菲沙基因信息有限公司,未經武漢菲沙基因信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710720525.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種磨針機
- 下一篇:一種可對鋼球冷鐓模具進行研磨的車床





