[發(fā)明專利]核酸序列裝配的方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201910418296.1 | 申請(qǐng)日: | 2015-06-26 |
| 公開(公告)號(hào): | CN110211637B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計(jì))人: | M·史諾-萊文;I·麥克卡倫 | 申請(qǐng)(專利權(quán))人: | 10X基因組學(xué)有限公司 |
| 主分類號(hào): | G16B30/00 | 分類號(hào): | G16B30/00 |
| 代理公司: | 深圳市百瑞專利商標(biāo)事務(wù)所(普通合伙) 44240 | 代理人: | 金輝 |
| 地址: | 美國(guó)加利*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 核酸 序列 裝配 方法 系統(tǒng) | ||
本分案申請(qǐng)?zhí)峁┝擞糜诜治鲞z傳序列數(shù)據(jù)的方法、過(guò)程、且特別是計(jì)算機(jī)執(zhí)行的過(guò)程和計(jì)算機(jī)程序產(chǎn)品。所述過(guò)程和產(chǎn)品用于將較短的核酸序列數(shù)據(jù)裝配成較長(zhǎng)連接的并且優(yōu)選連續(xù)的遺傳構(gòu)建體,包括大的重疊群、染色體和整個(gè)基因組。
本申請(qǐng)為申請(qǐng)?zhí)枮?01580042592.6,申請(qǐng)日為2015年6月26日,發(fā)明名稱為“核酸序列裝配的方法和系統(tǒng)”的分案申請(qǐng)。
相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)要求2014年6月26日提交的名稱為“Processes and Systems forNucleic Acids Sequence Assembly”的美國(guó)專利申請(qǐng)?zhí)?2/017,589的優(yōu)先權(quán),其通過(guò)引用的方式并入本文。
背景技術(shù)
與高通量下一代測(cè)序技術(shù)相關(guān)的重要挑戰(zhàn)之一在于將相對(duì)短的序列讀段裝配成較長(zhǎng)的連續(xù)序列。基因組序列裝配過(guò)程通常類推為具有切割成小段的小說(shuō),然后必須將其重新裝配成完整的小說(shuō)。在序列裝配中,這通常通過(guò)將要裝配的整個(gè)序列的重疊子區(qū)段拼接在一起來(lái)實(shí)現(xiàn)。如將理解的,當(dāng)各段為較大且不太模糊時(shí),該裝配過(guò)程變得較容易。例如,根據(jù)完整的段落,頁(yè)或章節(jié)比從單個(gè)句子,句子片段或隨機(jī)詞或詞的部分裝配小說(shuō)更容易。同樣,使用核酸測(cè)序,單獨(dú)的序列讀段越短,將多個(gè)讀段裝配成較長(zhǎng)的連續(xù)序列變得越困難。
雖然下一代測(cè)序技術(shù)能夠產(chǎn)生大量的序列數(shù)據(jù),例如在單次運(yùn)行中產(chǎn)生1兆兆堿基(terabase)序列數(shù)據(jù),但是它們困擾于僅產(chǎn)生短的序列讀段長(zhǎng)度的困難。具體地,這些測(cè)序技術(shù)通常獲得100個(gè)連續(xù)堿基或更少(或當(dāng)作為配對(duì)末端測(cè)序來(lái)測(cè)序時(shí),高達(dá)約200個(gè)堿基)的讀段中的序列數(shù)據(jù)。這些讀段然后必須裝配成更長(zhǎng)的連續(xù)序列。盡管某些測(cè)序技術(shù)提供長(zhǎng)度為800、1000、5000或甚至20,000 個(gè)堿基的更長(zhǎng)序列讀段,但這通常以系統(tǒng)通量為代價(jià)而來(lái)到,每次運(yùn)行僅產(chǎn)生數(shù)百兆堿基序列數(shù)據(jù)。
已經(jīng)采用了許多過(guò)程和算法將相對(duì)短的序列讀段裝配成更長(zhǎng)的連續(xù)序列。通常,這些短序列讀段通常與許多其它短序列讀段重疊,以在整個(gè)較長(zhǎng)序列的不同部分上提供冗余覆蓋(稱為“覆蓋”或“倍數(shù)覆蓋”)。在高水平,來(lái)自多個(gè)讀段的重疊序列用于將較長(zhǎng)序列信息拼湊在一起。在許多情況下,例如來(lái)自相同物種的現(xiàn)有已知參考序列是可獲得的。這些參考序列可以用作將較短序列讀段定位到較大基因組或基因組片段上的支架上。然后在支架上層疊多倍序列覆蓋以提供相對(duì)高的置信序列。
然而,在許多情況下,參考序列可能不可用,需要被測(cè)序的基因組或基因組片段的從頭裝配。此外,在許多情況下,此類參考序列是沒(méi)有幫助的,因?yàn)闇y(cè)序的目標(biāo)實(shí)現(xiàn)它以檢測(cè)靶序列中的突變。例如,在靶序列來(lái)自癌癥的情況下,它是輸入以確定靶序列中存在哪些突變,插入和缺失作為診斷癌癥階段或癌癥的一些其它屬性的方式。因此,利用參考序列在測(cè)序努力中并不總是有用的。
因此,本文描述了用于將序列讀段裝配成更大基因組或基因組片段序列,特別是將序列信息從頭裝配成更大序列背景的改進(jìn)的方法,過(guò)程和系統(tǒng),所述序列背景包括例如全染色體或甚至全基因組背景。
概要
本文中描述了用于裝配來(lái)自多種不同測(cè)序系統(tǒng)的序列讀段(包括例如短讀段和長(zhǎng)讀段序列系統(tǒng))的改進(jìn)的遺傳序列裝配方法。本文中所述的方法可用于從頭裝配過(guò)程和再測(cè)序裝配過(guò)程或針對(duì)已知參考序列的裝配過(guò)程兩者。
本文所述的方法,過(guò)程和系統(tǒng)采用具有相關(guān)聯(lián)的條形碼序列的序列讀段,以在一個(gè)或多個(gè)不同的裝配步驟幫助整體裝配過(guò)程。
在某些方面,提供了將核酸序列讀段裝配成較大連續(xù)序列的方法。所述方法包括在包括第一數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)執(zhí)行的系統(tǒng)中鑒定包含重疊序列和共同條形碼序列二者的序列讀段的第一子集,所述第一數(shù)據(jù)結(jié)構(gòu)包含源自較大的連續(xù)核酸的多個(gè)序列讀段。源自較大的連續(xù)核酸的共同片段的序列讀段包括共同的條形碼序列。比對(duì)序列讀段的第一子集以提供連續(xù)的線性核酸序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于10X基因組學(xué)有限公司,未經(jīng)10X基因組學(xué)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910418296.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





