[發(fā)明專利]宏基因組序列的組裝有效
| 申請?zhí)枺?/td> | 201210170777.3 | 申請日: | 2012-05-29 |
| 公開(公告)號: | CN103246829B | 公開(公告)日: | 2017-12-01 |
| 發(fā)明(設(shè)計)人: | 沙米拉·謝克哈·馬休;塔里尼·山卡·果時;瓦倫·梅拉 | 申請(專利權(quán))人: | 塔塔咨詢服務(wù)有限公司 |
| 主分類號: | G06F19/20 | 分類號: | G06F19/20 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 倪小敏 |
| 地址: | 印度*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 宏基 序列 組裝 | ||
技術(shù)領(lǐng)域
本發(fā)明大體涉及宏基因組領(lǐng)域,特別地,涉及構(gòu)成宏基因組數(shù)據(jù)的序列的組裝。
背景技術(shù)
通過對基因材料進行測序,對從環(huán)境樣品中直接獲取的基因材料的研究,被稱為宏基因組學(xué)。宏基因組學(xué)提供了有關(guān)環(huán)境樣品中存在的各種有機體的遺傳多樣性和生理機能的信息。
在基因組研究中涉及的設(shè)備(例如研究實驗室或診室)一般使用高通量平臺(例如下一代測序(NGS)平臺),該平臺每年能夠生成數(shù)量龐大的宏基因組數(shù)據(jù)。可以進一步分析由此生成的宏基因組數(shù)據(jù),例如,來確定宏基因組數(shù)據(jù)中存在的各種有機體,以及來鑒別它們包括的各種基因的功能作用。通常地,為了進一步的分析和將來的研究,可以將宏基因組數(shù)據(jù)儲存起來。因此,每年都生成數(shù)量龐大的、數(shù)百千兆字節(jié)(TB)范圍內(nèi)的宏基因組數(shù)據(jù),這些數(shù)據(jù)被儲存于庫中以用于將來的研究。
為了分析這些宏基因組數(shù)據(jù),通常將構(gòu)成宏基因組數(shù)據(jù)的核苷酸序列(例如DNA或RNA序列)組裝成稱為重疊群(contigs)的較大序列。組裝過程一般涉及到對核苷酸序列進行成對比較并進行以百萬計的編號,因此需要巨大的計算資源和基礎(chǔ)設(shè)施。進一步地,若試圖組裝核苷酸序列,該序列來源于屬于不同分類群的大量有機體的基因組,則可能導(dǎo)致錯誤的嵌合序列的形成,這會對宏基因組數(shù)據(jù)的分析結(jié)果造成影響。
發(fā)明內(nèi)容
本概要被提供來介紹與宏基因組序列的組裝相關(guān)的概念,該概念在下面的詳細說明中會進一步描述。本概要并不旨在鑒別要求保護的主題的本質(zhì)特征,也不旨在用于確定或限制要求保護的主題的范圍。
在此描述了用于組裝宏基因組序列的方法和系統(tǒng)。在一個實施例中,用于組裝宏基因組序列的方法包括在三維空間中表示多個宏基因組序列中的每一個,以獲得多個序列向量。進一步地,基于多個序列向量,在三維空間中定義具有多個等尺寸的較小立方體(下文稱為網(wǎng)格)的立方體。在一個實施例中,所述立方體被定義為其包括與多個宏基因組序列相對應(yīng)的序列向量。進一步地,逐步遍歷所述多個網(wǎng)格,以識別所述多個宏基因組序列并將其組裝成一個或多個重疊群。在一個實施例中,將所述一個或多個重疊群如此組裝:一個重疊群包括可能來源于同一基因組的宏基因組序列。
附圖說明
參考附圖對詳細說明進行了描述。在附圖中,參考數(shù)字最左邊的數(shù)字標示了首次出現(xiàn)該參考數(shù)字的附圖。在附圖中使用同樣的數(shù)字來引用相似的特征和部件。
圖1(a)根據(jù)本發(fā)明的一個實施例,說明了一個宏基因組序列組裝系統(tǒng)。
圖1(b)根據(jù)本發(fā)明的一個實施例,說明了由用于組裝宏基因組序列的宏基因組序列組裝系統(tǒng)生成的立方體。
圖1(c)根據(jù)本發(fā)明的一個實施例,說明了通過宏基因組序列組裝系統(tǒng)在立方體上實施的逐步遍歷的圖形表示。
圖2根據(jù)本發(fā)明的一個實施例,說明了使用宏基因組序列組裝系統(tǒng)獲得的純網(wǎng)格所覆蓋的宏基因組序列的百分比,該百分比以條形來描述。
圖3根據(jù)本發(fā)明的一個實施例,說明了用于組裝宏基因組序列的方法。
圖4根據(jù)本發(fā)明的一個實施例,說明了生成用于組裝宏基因組序列的一組參考點的方法。
具體實施方式
在此描述了用于組裝宏基因組序列的方法和系統(tǒng)。通常地,出于研究或醫(yī)學(xué)目的,無論是從生物樣品還是環(huán)境樣品中直接提取的基因材料(即宏基因組),都會作為宏基因組數(shù)據(jù)被處理和儲存起來。對所述基因材料進行測序,以生成多個核苷酸序列(例如DNA或RNA序列)。隨后可以將所述核苷酸序列(也被稱為宏基因組序列)組裝成稱為重疊群的基因組片段,這些片段與環(huán)境樣品中存在的有機體的基因組相對應(yīng)。可以對所述重疊群作進一步分析,例如,來評估環(huán)境樣品中存在的有機體的遺傳多樣性和功能概況。
已經(jīng)有多種組裝技術(shù),被用于將從特定環(huán)境樣品中存在的多種有機體得到的宏基因組序列組裝成與其對應(yīng)的重疊群。傳統(tǒng)的組裝技術(shù)包括將宏基因組序列與預(yù)定的基于寡核苷酸頻率的模型進行對比,并將宏基因組序列標記至顯示出最高相似度的模型。然后可以將標記至相似模型的宏基因組序列組裝成重疊群。但是屬于未知基因組的宏基因組序列可能不會對任何模型顯示出顯著的相似度,從而可能不會被組裝成重疊群,因此會造成含義不明、降低分析效率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于塔塔咨詢服務(wù)有限公司,未經(jīng)塔塔咨詢服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210170777.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





