[發(fā)明專利]提升基因組組裝完整性的方法、裝置及其應(yīng)用有效
| 申請(qǐng)?zhí)枺?/td> | 202111365725.7 | 申請(qǐng)日: | 2021-11-18 |
| 公開(公告)號(hào): | CN113808668B | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 李本萍;田仕林;周勛;陶琳娜;王靜 | 申請(qǐng)(專利權(quán))人: | 北京諾禾致源科技股份有限公司 |
| 主分類號(hào): | G16B30/10 | 分類號(hào): | G16B30/10;G16B30/20;G16B40/00 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 路秀麗 |
| 地址: | 102200 北京市昌平區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 提升 基因組 組裝 完整性 方法 裝置 及其 應(yīng)用 | ||
本發(fā)明提供了一種提升基因組組裝完整性的方法、裝置及其應(yīng)用。該方法包括:獲取目標(biāo)樣本的初步的染色體版本基因組;利用三代測(cè)序短序列與初步的染色體版本基因組的序列進(jìn)行比對(duì),將最優(yōu)比對(duì)短序列根據(jù)染色體進(jìn)行聚類,得到多個(gè)類群;在多個(gè)類群里對(duì)三代測(cè)序短序列的序列進(jìn)行局部組裝,從而獲得完整性提升的組裝基因組序列。通過首先利用測(cè)序序列,進(jìn)行常規(guī)組裝得到初組裝基因組序列并進(jìn)行染色體掛載之后,將三代短序列比對(duì)回上述的基因組上,將最優(yōu)比對(duì)的三代短序列根據(jù)染色體聚成多個(gè)類群,之后在每個(gè)類群里做三代局部組裝,從而獲得完整性更高的基因組序列。
技術(shù)領(lǐng)域
本發(fā)明涉及基因組序列組裝領(lǐng)域,具體而言,涉及一種提升基因組組裝完整性的方法、裝置及其應(yīng)用。
背景技術(shù)
自1977年起,DNA測(cè)序技術(shù)先后經(jīng)歷了三個(gè)階段。第一階段主要是依據(jù)桑格爾(Sanger)和考爾森(Coulson)提出的雙脫氧鏈末端終止法技術(shù),也稱為Sanger測(cè)序;第二階段主要是以Roche公司的454測(cè)序平臺(tái)、Illumina公司的Solexa測(cè)序系統(tǒng)為代表的第二代測(cè)序技術(shù),也稱為新一代測(cè)序技術(shù)(Next-generation sequencing technology,NGS);第三個(gè)階段主要是以Pacific Biosciences公司的SMRT(single molecule real time)技術(shù)、Oxford Nanopore Technologies公司的納米孔單分子測(cè)序技術(shù),被認(rèn)為是第三代測(cè)序技術(shù)。
伴隨著測(cè)序的產(chǎn)生,科研工作者也開啟了對(duì)物種基因組的探索。從小至幾千堿基的噬菌體基因組,到三十億堿基的人類基因組,再到最近公布的上百億堿基的裸子植物(如加州紅杉)和脊索動(dòng)物(如非洲肺魚)基因組,人們正在一點(diǎn)點(diǎn)的揭開基因組的神秘面紗。在這些研究的背后,基因組從頭組裝無疑是發(fā)揮了基礎(chǔ)性的作用。并且隨著研究的進(jìn)一步深入,人們對(duì)組裝基因組的連續(xù)性要求越來越高。在二代測(cè)序階段,基因組組裝的一般都比較碎,基因組N50通常在KB量級(jí)。后來隨著三代長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的產(chǎn)生,測(cè)序reads讀長(zhǎng)平均就可以達(dá)到幾十到幾百KB,從而使得組裝基因組的連續(xù)性得到大幅度提高,重疊群 N50(Contig N50)基本上都在MB量級(jí)。并且借助Bionano、Hic等技術(shù),可以將基因組掛載到染色體水平(重疊群之間用N連接,即空缺gap)。
最近,隨著Pacbio推出HIFI測(cè)序模式(長(zhǎng)度大于10kb,準(zhǔn)確性大于99%),Nanopore推出Ultra-long模式(短序列 N50在60K以上),人們逐漸開始挑戰(zhàn)基因組組裝的終極目標(biāo),即整個(gè)基因組的染色體實(shí)現(xiàn)完整的從端粒到端粒組裝(記為T2T組裝),而沒有任何空缺(gap)。然而,由于物種本身復(fù)雜的重復(fù)特性,以及組裝算法的限制和組裝策略的問題,目前除了人和水稻等少量物種實(shí)現(xiàn)了T2T組裝之外,大部分物種基因組的空缺個(gè)數(shù)還依舊很多。
HiFi reads(High fidelity reads)是PacBio公司推出的基于CCS測(cè)序模式的兼具長(zhǎng)讀長(zhǎng)和高準(zhǔn)確度的測(cè)序序列,又稱CCS序列。在這種測(cè)序模式下,因酶讀長(zhǎng)(平均~100Kb以上)遠(yuǎn)大于插入片段長(zhǎng)度(~20 Kb),測(cè)序時(shí),聚合酶會(huì)繞著DNA模板進(jìn)行環(huán)形測(cè)序,使得插入片段被多次測(cè)序,產(chǎn)生多條subreads。之后來源于同一條模板鏈的subreads經(jīng)過一致性校正,最終得到長(zhǎng)度大于10KB,準(zhǔn)確性大于99%的HiFi reads,用于基因組組裝。
Nanopore Ultralong測(cè)序模式是Nanopore公司推出的可以有效提升測(cè)序readsN50長(zhǎng)度的測(cè)序模式。它是新一代基于納米孔的單分子實(shí)時(shí)電信號(hào)測(cè)序技術(shù),其原理是:納米孔蛋白作為生物傳感器,插入聚合物形成的膜中。此外,核酸分子會(huì)與馬達(dá)蛋白(MotorProtein)連接,該馬達(dá)蛋白一方面對(duì)雙鏈進(jìn)行解鏈,使核酸單鏈在電泳的作用下通過特定的納米孔蛋白,另一方面可控制DNA/RNA分子的移動(dòng)速度,保證堿基逐一地穿過納米孔,產(chǎn)生穩(wěn)定可靠的電信號(hào)。由于不同堿基的帶電性質(zhì)不同,通過檢測(cè)電信號(hào)的差異就能檢測(cè)出通過納米孔的堿基類別從而實(shí)現(xiàn)測(cè)序。通常,經(jīng)過Nanopore Ultralong測(cè)序模式產(chǎn)生的reads, Reads N50能達(dá)到60-80K以上。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京諾禾致源科技股份有限公司,未經(jīng)北京諾禾致源科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111365725.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 減毒的人-牛嵌合呼吸道合胞病毒疫苗的生產(chǎn)
- 減毒的人-牛嵌合呼吸道合胞病毒疫苗的生產(chǎn)
- 用于對(duì)基因組進(jìn)行壓縮和解壓縮的方法和裝置
- 一種基因組重測(cè)序分析系統(tǒng)及方法
- 病原微生物基因組數(shù)據(jù)庫(kù)及其建立方法
- 宏基因組的重組裝方法、重組裝裝置及終端設(shè)備
- 用于保存和使用基因組及基因組數(shù)據(jù)的方法
- 識(shí)別胚胎中染色體異常的系統(tǒng)和方法
- 菌株基因組注釋查詢方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 真菌基因組測(cè)序數(shù)據(jù)自動(dòng)分析方法及系統(tǒng)





