[發(fā)明專利]一種核酸第三代測(cè)序原始數(shù)據(jù)的處理方法及其應(yīng)用有效
| 申請(qǐng)?zhí)枺?/td> | 201710150622.6 | 申請(qǐng)日: | 2017-03-14 |
| 公開(公告)號(hào): | CN108573127B | 公開(公告)日: | 2021-04-27 |
| 發(fā)明(設(shè)計(jì))人: | 劉亞斌;鄧天全;賀麗娟;楊林峰;高強(qiáng) | 申請(qǐng)(專利權(quán))人: | 深圳華大基因科技服務(wù)有限公司 |
| 主分類號(hào): | G16B20/30 | 分類號(hào): | G16B20/30 |
| 代理公司: | 深圳鼎合誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 44281 | 代理人: | 彭家恩;羅瑤 |
| 地址: | 518083 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 核酸 第三代 原始數(shù)據(jù) 處理 方法 及其 應(yīng)用 | ||
本申請(qǐng)公開了一種核酸第三代測(cè)序原始數(shù)據(jù)的處理方法及其應(yīng)用。本申請(qǐng)的核酸第三代測(cè)序原始數(shù)據(jù)的處理方法,包括將第二代短序列數(shù)據(jù)比對(duì)到第三代自糾錯(cuò)數(shù)據(jù)上,統(tǒng)計(jì)比對(duì)結(jié)果中第三代自糾錯(cuò)數(shù)據(jù)的單堿基覆蓋深度,將單堿基覆蓋深度低于閾值的區(qū)域屏蔽為N,采用第二代測(cè)序的補(bǔ)洞軟件對(duì)N屏蔽區(qū)域進(jìn)行補(bǔ)洞,以獲得單堿基錯(cuò)誤率較低的核酸第三代測(cè)序數(shù)據(jù)。本申請(qǐng)的核酸第三代測(cè)序原始數(shù)據(jù)的處理方法,利用第二代短序列數(shù)據(jù)與第三代長(zhǎng)序列數(shù)據(jù)進(jìn)行比對(duì),并利用第二代測(cè)序的補(bǔ)洞軟件對(duì)比對(duì)結(jié)果中單堿基覆蓋深度較低的N屏蔽區(qū)進(jìn)行補(bǔ)齊,有效的降低了第三代測(cè)序數(shù)據(jù)中的單堿基錯(cuò)誤率,提高了測(cè)序質(zhì)量。
技術(shù)領(lǐng)域
本申請(qǐng)涉及核酸測(cè)序數(shù)據(jù)處理領(lǐng)域,特別是涉及一種核酸第三代測(cè)序原始數(shù)據(jù)的處理方法及其應(yīng)用。
背景技術(shù)
隨著第二代測(cè)序技術(shù)(Next-generation sequencing,NGS)的成熟和普及,測(cè)序成本大大降低,其中二代測(cè)序儀Hiseq2500一次運(yùn)行就可產(chǎn)出600Gb的數(shù)據(jù)量,相當(dāng)于人類基因組的200倍。二代測(cè)序技術(shù)雖然可以快速產(chǎn)出大量數(shù)據(jù),但是其有一個(gè)致命的缺點(diǎn)就是測(cè)序讀長(zhǎng)過短,眾所周知,基因組組裝最重要的指標(biāo)就是N50以及基因組的完整度,但是傳統(tǒng)二代測(cè)序技術(shù)由于其讀長(zhǎng)過短,其組裝算法大多都是基于德布魯因圖論(de Bruijngraph)的思想,從而使得組裝中遇到的最大的挑戰(zhàn)就是解決高重復(fù)及高雜合基因組。
把組裝出的重疊群(Contig)或骨架序列(Scaffold)從大到小排列,當(dāng)其累計(jì)長(zhǎng)度剛剛超過全部組裝序列總長(zhǎng)度50%時(shí),最后一個(gè)重疊群(Contig)或骨架序列(Scaffold)的大小即為N50的大小,N50對(duì)評(píng)價(jià)基因測(cè)序的完整性有重要意義。把組裝出的重疊群(Contig)或骨架序列(Scaffold)從大到小排列,當(dāng)其累計(jì)長(zhǎng)度剛剛超過全部組裝序列總長(zhǎng)度90%時(shí),最后一個(gè)重疊群(Contig)或骨架序列(Scaffold)的大小即為N90的大小。
在一條骨架序列(Scaffold)中,重疊群(Contig)之間無序列信息且被表示為N的區(qū)域,被稱為洞(gap)。
K-mer是指將一條長(zhǎng)度為L(zhǎng)的序列,按照長(zhǎng)度K由L序列的5’到3’端挨個(gè)堿基進(jìn)行分割,從而得到L-K+1個(gè)長(zhǎng)度為K的核苷酸序列。例如,長(zhǎng)度為90bp的短序列,按照17bp從頭到尾挨個(gè)堿基進(jìn)行分割,可以得到74個(gè)17bp的連續(xù)序列,即17-mer序列。
第三代測(cè)序技術(shù)也稱為單分子實(shí)時(shí)測(cè)序技術(shù)(Single Molecule Real Time,SMRT)。PacBio第三代測(cè)序儀具有超長(zhǎng)讀長(zhǎng)、無PCR擴(kuò)增偏差的單分子測(cè)序、直接分析堿基修飾等技術(shù)優(yōu)勢(shì),已經(jīng)快速應(yīng)用于基因組de novo組裝、轉(zhuǎn)錄組學(xué)研究等領(lǐng)域,其平均讀長(zhǎng)10-15Kb,最長(zhǎng)讀長(zhǎng)可超過40Kb。第三代測(cè)序技術(shù)的優(yōu)勢(shì)就在于單分子測(cè)序,對(duì)于高雜合、高重復(fù)、或者高GC,不存在任何偏好,所以三代測(cè)序技術(shù)可以顯著的提升重疊群(Contig)組裝水平。
但是,第三代數(shù)據(jù)最大的問題就在于其極高的單堿基錯(cuò)誤率,高達(dá)15%。其錯(cuò)誤類型主要是插入缺失,并且隨機(jī)分布,可以通過生物信息的手段進(jìn)行一定程度的修正,目前發(fā)布的三代組裝流程中,如SMRT、Falcon、Pbcr、Canu,都具有第三代數(shù)據(jù)自糾錯(cuò)的功能,可以將20倍以上的三代數(shù)據(jù)的錯(cuò)誤率從15%降低到3%左右,但是3%的錯(cuò)誤率對(duì)于基于OLC(Overlap-Layout-Consensus)算法的組裝軟件干擾依然很大。
因此,亟需一種錯(cuò)誤率更低的第三代測(cè)序數(shù)據(jù)的處理方法,以提高核酸第三代測(cè)序的質(zhì)量。
發(fā)明內(nèi)容
本申請(qǐng)的目的是提供一種新的核酸第三代測(cè)序原始數(shù)據(jù)的處理方法,及其應(yīng)用。
為了實(shí)現(xiàn)上述目的,本申請(qǐng)采用了以下技術(shù)方案:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳華大基因科技服務(wù)有限公司,未經(jīng)深圳華大基因科技服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710150622.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于在移動(dòng)通信系統(tǒng)中進(jìn)行信號(hào)轉(zhuǎn)換的設(shè)備和方法
- 在蜂窩移動(dòng)無線系統(tǒng)中同時(shí)接入電路業(yè)務(wù)和分組業(yè)務(wù)的方法
- 一種實(shí)現(xiàn)第三代移動(dòng)通信系統(tǒng)視頻業(yè)務(wù)的方法
- 基于固定長(zhǎng)度編碼的影像壓縮方法及裝置
- 一種核酸第三代測(cè)序原始數(shù)據(jù)的處理方法及其應(yīng)用
- 綜合應(yīng)用第三代超長(zhǎng)測(cè)序讀段和第二代鏈接式讀段從頭組裝基因組的方法
- 第三代測(cè)序用標(biāo)簽序列、接頭序列、試劑盒和第三代測(cè)序建庫(kù)方法
- 第三代半導(dǎo)體的清洗方法
- 第三代半導(dǎo)體的刻蝕方法和裝置
- 第三代半導(dǎo)體的刻蝕裝置
- 原始數(shù)據(jù)處理裝置、原始數(shù)據(jù)處理方法和成像設(shè)備
- 信息監(jiān)控方法及裝置
- 一種數(shù)據(jù)存儲(chǔ)方法、數(shù)據(jù)查詢方法及相關(guān)設(shè)備
- 醫(yī)學(xué)圖像處理系統(tǒng)及其數(shù)據(jù)管理方法
- 一種用于IT系統(tǒng)運(yùn)維監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)系統(tǒng)
- 使用復(fù)合數(shù)據(jù)類型顯示數(shù)據(jù)的裝置、方法及存儲(chǔ)介質(zhì)
- 基于加密算法的模型構(gòu)建方法及相關(guān)設(shè)備
- 一種數(shù)據(jù)處理系統(tǒng)、方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)生成方法、裝置和用于數(shù)據(jù)生成的裝置
- 一種知識(shí)產(chǎn)權(quán)圖形識(shí)別中增強(qiáng)分類模型抗背景變化能力的方法





