[發(fā)明專利]一種基于DNA變異檢測(cè)的三代數(shù)據(jù)校正方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810336881.2 | 申請(qǐng)日: | 2018-04-16 |
| 公開(公告)號(hào): | CN108595915B | 公開(公告)日: | 2021-06-22 |
| 發(fā)明(設(shè)計(jì))人: | 高敬陽;高峰;陳禹保 | 申請(qǐng)(專利權(quán))人: | 北京化工大學(xué);北京市計(jì)算中心 |
| 主分類號(hào): | G16B20/20 | 分類號(hào): | G16B20/20;G16B30/10;G06F16/28 |
| 代理公司: | 北京太兆天元知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11108 | 代理人: | 張洪年 |
| 地址: | 100029 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 dna 變異 檢測(cè) 數(shù)據(jù) 校正 方法 | ||
本發(fā)明提供了屬于生物信息技術(shù)領(lǐng)域的一種基于DNA變異檢測(cè)的三代數(shù)據(jù)校正方法,首先將三代測(cè)序數(shù)據(jù)處理后作為參考序列數(shù)據(jù),然后將二代測(cè)序數(shù)據(jù)處理后與其進(jìn)行比對(duì),得到比對(duì)文件。對(duì)比對(duì)文件進(jìn)行變異分析檢測(cè),可以得到二代測(cè)序數(shù)據(jù)相對(duì)于三代測(cè)序數(shù)據(jù)的變異信息,利用變異信息完成對(duì)三代測(cè)序數(shù)據(jù)的校正。將DNA變異檢測(cè)方法應(yīng)用到三代測(cè)序數(shù)據(jù)糾錯(cuò)中,聯(lián)合使用二代測(cè)序數(shù)據(jù)與三代測(cè)序數(shù)據(jù),降低三代數(shù)據(jù)校正的成本,程序采用多線程的思想,加快三代數(shù)據(jù)的校正速度。本發(fā)明通過聯(lián)合校正技術(shù)解決三代測(cè)序技術(shù)中存在的高錯(cuò)誤率和高成本問題,為后續(xù)的三代測(cè)序數(shù)據(jù)變異檢測(cè)方面奠定基礎(chǔ)。
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息技術(shù)領(lǐng)域,具體來說,涉及一種基于DNA變異檢測(cè)的三代數(shù)據(jù)校正方法。
背景技術(shù)
隨著三代測(cè)序技術(shù)的發(fā)展,測(cè)序數(shù)據(jù)的片段長(zhǎng)度不斷提高,同時(shí)隨著精準(zhǔn)醫(yī)療的提出與發(fā)展,測(cè)序數(shù)據(jù)的規(guī)模呈現(xiàn)爆炸性的增長(zhǎng)。現(xiàn)階段正是二代測(cè)序技術(shù)向三代測(cè)序技術(shù)的過渡階段,由于三代測(cè)序技術(shù)中存在的一些缺陷,制約著三代測(cè)序技術(shù)的發(fā)展與應(yīng)用。現(xiàn)在采用的是三代測(cè)序數(shù)據(jù)校正軟件主要有FALCON和PBcR兩種,它們使用三代數(shù)據(jù)自糾錯(cuò)的方法對(duì)測(cè)序數(shù)據(jù)進(jìn)行校正,主要分為兩步:
①將參考模板序列與候選序列進(jìn)行兩兩比對(duì)獲得參考模板序列的多重比對(duì)結(jié)果;
②通過多重序列比對(duì)結(jié)果推斷正確結(jié)果。
三代數(shù)據(jù)自糾錯(cuò)方法對(duì)測(cè)序深度有較高要求,增大了測(cè)序的成本,而且這兩款軟件進(jìn)行自糾錯(cuò)時(shí)所需要的時(shí)間較長(zhǎng),這主要是由于自比對(duì)算法Daligner和MHAP導(dǎo)致的。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供了一種基于DNA變異檢測(cè)的三代數(shù)據(jù)校正方法,首先將三代測(cè)序數(shù)據(jù)處理后作為參考序列數(shù)據(jù),然后將二代測(cè)序數(shù)據(jù)處理后與其進(jìn)行比對(duì),得到比對(duì)文件。對(duì)比對(duì)文件進(jìn)行變異分析檢測(cè),可以得到二代測(cè)序數(shù)據(jù)相對(duì)于三代測(cè)序數(shù)據(jù)的變異信息,利用變異信息完成對(duì)三代測(cè)序數(shù)據(jù)的校正。本發(fā)明通過聯(lián)合校正技術(shù)解決三代測(cè)序技術(shù)中存在的高錯(cuò)誤率和高成本問題,為后續(xù)的三代測(cè)序數(shù)據(jù)變異檢測(cè)方面奠定基礎(chǔ)。
一種基于DNA變異檢測(cè)的三代數(shù)據(jù)校正方法,其特征在于,包括以下步驟:
(a)數(shù)據(jù)格式轉(zhuǎn)換,包括并行的線程1和線程2:
線程1:將原始三代fastq數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換為fasta格式數(shù)據(jù)并保存,并對(duì)其建立索引得到三代fasta參考序列集合;
線程2:得到作為數(shù)據(jù)比對(duì)的二代fastq初始序列集合;
(b)DNA變異檢測(cè):
將二代fastq初始序列集合與三代fasta參考序列集合使用bwa-mem算法進(jìn)行比對(duì),得到比對(duì)結(jié)果所生產(chǎn)的bam文件;對(duì)bam文件進(jìn)行質(zhì)量控制,根據(jù)bam文件中的序列質(zhì)量信息,去除低質(zhì)量的序列,然后進(jìn)行序列去重;對(duì)去重后的文件進(jìn)行Indel Realigner,對(duì)到indel附近的reads進(jìn)行局部重新比對(duì);對(duì)bam文件中的reads進(jìn)行堿基質(zhì)量值的重新校正,使最后輸出的bam文件中reads的質(zhì)量值接近真實(shí)值,以此作為三代數(shù)據(jù)校正所使用的數(shù)據(jù)集合;使用DNAseq對(duì)此數(shù)據(jù)進(jìn)行變異檢測(cè),得到二代Illumina數(shù)據(jù)與三代數(shù)據(jù)之間的變異信息,即三代數(shù)據(jù)中存在的測(cè)序錯(cuò)誤的位置;
(c)mapping區(qū)域堿基校正。
優(yōu)選的,所述線程1中,將原始三代fastq數(shù)據(jù)轉(zhuǎn)換為fasta格式數(shù)據(jù)之前除低質(zhì)量序列和接頭序列。
優(yōu)選的,所述線程2中,具體過程為:去除二代Illumina測(cè)序數(shù)據(jù)中的primer和adapter,并且根據(jù)read的質(zhì)量信息,將低質(zhì)量的read去除。
優(yōu)選的,所述步驟(b)DNA變異檢測(cè)中,對(duì)bam文件進(jìn)行序列去重是去除PCR擴(kuò)增中被過量擴(kuò)增,非基因組中存在且不能作為校正的依據(jù)的序列。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京化工大學(xué);北京市計(jì)算中心,未經(jīng)北京化工大學(xué);北京市計(jì)算中心許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810336881.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 核酸外切酶保護(hù)DNA探針雜交DNA微陣列芯片檢測(cè)DNA結(jié)合蛋白
- DNA的合成方法
- 一種基因組DNA提取方法
- 用于產(chǎn)生由單分子DNA形成的環(huán)狀DNA的方法
- 在DNA分子的環(huán)化中僅選擇由單分子形成的環(huán)化DNA的方法
- 基于靶標(biāo)蛋白誘導(dǎo)DNA酶循環(huán)生成的均相免疫分析方法
- 一種測(cè)序用DNA文庫
- 一種無立足點(diǎn)和分支遷移域的DNA鏈置換新方法
- 一種DNA功能化納米金探針及其檢測(cè)端粒酶的應(yīng)用
- 一種不產(chǎn)生DNA雙鏈斷裂的實(shí)現(xiàn)植物基因替換的方法
- 一種預(yù)測(cè)性變異測(cè)試方法
- 一種冗余變異體識(shí)別方法
- 基于Android多線程數(shù)據(jù)依賴的變異測(cè)試方法
- 序列變異校驗(yàn)方法和裝置、生產(chǎn)變異序列的方法和裝置及電子設(shè)備
- 對(duì)測(cè)序序列進(jìn)行變異模擬的方法及其應(yīng)用
- 一種冗余變異體識(shí)別方法及識(shí)別裝置
- 致病性變異位點(diǎn)判定方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 測(cè)試方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種模型非依賴的基因組結(jié)構(gòu)變異檢測(cè)系統(tǒng)及方法
- 結(jié)構(gòu)變異檢測(cè)模型、其構(gòu)建方法和裝置
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





