[發(fā)明專利]三代測(cè)序數(shù)據(jù)糾錯(cuò)的方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201710170899.5 | 申請(qǐng)日: | 2017-03-21 |
| 公開(kāi)(公告)號(hào): | CN108629156B | 公開(kāi)(公告)日: | 2020-08-28 |
| 發(fā)明(設(shè)計(jì))人: | 徐煜;李治鑫;林哲;高強(qiáng);霍守江;肖黎 | 申請(qǐng)(專利權(quán))人: | 深圳華大基因科技服務(wù)有限公司 |
| 主分類號(hào): | G16B30/10 | 分類號(hào): | G16B30/10;G16B30/20;G16B40/00 |
| 代理公司: | 深圳鼎合誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 44281 | 代理人: | 孫銀行;彭家恩 |
| 地址: | 518083 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 三代測(cè) 序數(shù) 糾錯(cuò) 方法 裝置 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
1.一種三代測(cè)序數(shù)據(jù)糾錯(cuò)的方法,其特征在于,包括:
利用二代測(cè)序數(shù)據(jù)和/或三代測(cè)序數(shù)據(jù),組裝出一個(gè)初步的參考基因組;
將所述二代測(cè)序數(shù)據(jù)和所述三代測(cè)序數(shù)據(jù)比對(duì)到所述參考基因組上;
對(duì)于所述三代測(cè)序數(shù)據(jù)比對(duì)結(jié)果中每個(gè)比對(duì)片段上的每個(gè)堿基位置,推斷并賦予該堿基位置一個(gè)最大可能性的堿基型和質(zhì)量值;
對(duì)于所述三代測(cè)序數(shù)據(jù)的讀長(zhǎng)中有多個(gè)比對(duì)片段和/或未比對(duì)上的片段,根據(jù)所述最大可能性的堿基型和質(zhì)量值,將所述多個(gè)比對(duì)片段和/或未比對(duì)上的片段整合為一條讀長(zhǎng)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述推斷并賦予該堿基位置一個(gè)最大可能性的堿基型和質(zhì)量值,通過(guò)最大后驗(yàn)?zāi)P汀⒆畲笏迫荒P突螂[馬爾可夫模型實(shí)現(xiàn)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述最大后驗(yàn)?zāi)P桶ǎ?/p>
對(duì)于每個(gè)堿基位置,在給定該堿基位置的基因組拷貝數(shù)、同一基因組位置上其它二代和三代比對(duì)片段的基因型以及二代和三代測(cè)序錯(cuò)誤的先驗(yàn)概率的條件下,計(jì)算該堿基位置上各種可能的堿基型出現(xiàn)的后驗(yàn)概率;
將該堿基位置的堿基型推斷為擁有最大后驗(yàn)概率的堿基型;將該堿基位置的質(zhì)量值賦值為各種可能的堿基型的后驗(yàn)概率中的最大值除以第二大值然后取常用對(duì)數(shù)并乘以-10所得的結(jié)果。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)于堿基位置L,假定其基因組拷貝數(shù)為n,在該位置上二代測(cè)序的基因型為R=(r1,r2,r3,…,rk),三代測(cè)序的基因型為S=(s1,s2,s3,…,sl),某三代測(cè)序讀長(zhǎng)的測(cè)序結(jié)果為obs,obs∈S;該位置所有可能的等位基因型為所有可能的基因型為則所述三代測(cè)序讀長(zhǎng)在該位置的堿基型為:
其中S'=S-obs。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,對(duì)于所述三代測(cè)序數(shù)據(jù)的讀長(zhǎng)中有多個(gè)比對(duì)片段和/或未比對(duì)上的片段,所述最大可能性的堿基型和質(zhì)量值,通過(guò)如下步驟確定:
對(duì)于未比對(duì)上的片段,其每個(gè)堿基位置的堿基型賦值為該位置觀察的堿基型,質(zhì)量值賦值為其測(cè)序的質(zhì)量值;
對(duì)于同一堿基位置被多個(gè)比對(duì)片段覆蓋,該位置的堿基型賦值為擁有最高質(zhì)量值的堿基型,其質(zhì)量值賦值為各堿基型質(zhì)量值中的最大值減去次大值。
6.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,在所述組裝出一個(gè)初步的參考基因組之后且在所述將所述二代測(cè)序數(shù)據(jù)和所述三代測(cè)序數(shù)據(jù)比對(duì)到所述參考基因組上之前,還包括:處理所述參考基因組的組裝結(jié)果,使其片段長(zhǎng)度和基因組復(fù)雜度適于所述二代測(cè)序數(shù)據(jù)和所述三代測(cè)序數(shù)據(jù)比對(duì)。
7.一種三代測(cè)序數(shù)據(jù)糾錯(cuò)的裝置,其特征在于,包括:
組裝裝置,用于利用二代測(cè)序數(shù)據(jù)和/或三代測(cè)序數(shù)據(jù),組裝出一個(gè)初步的參考基因組;
比對(duì)裝置,用于將所述二代測(cè)序數(shù)據(jù)和所述三代測(cè)序數(shù)據(jù)比對(duì)到所述參考基因組上;
推斷裝置,用于對(duì)于所述三代測(cè)序數(shù)據(jù)比對(duì)結(jié)果中每個(gè)比對(duì)片段上的每個(gè)堿基位置,推斷并賦予該堿基位置一個(gè)最大可能性的堿基型和質(zhì)量值;
整合裝置,用于對(duì)于所述三代測(cè)序數(shù)據(jù)的讀長(zhǎng)中有多個(gè)比對(duì)片段和/或未比對(duì)上的片段,根據(jù)所述最大可能性的堿基型和質(zhì)量值,將所述多個(gè)比對(duì)片段和/或未比對(duì)上的片段整合為一條讀長(zhǎng)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述推斷并賦予該堿基位置一個(gè)最大可能性的堿基型和質(zhì)量值,通過(guò)最大后驗(yàn)?zāi)P汀⒆畲笏迫荒P突螂[馬爾可夫模型實(shí)現(xiàn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳華大基因科技服務(wù)有限公司,未經(jīng)深圳華大基因科技服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710170899.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種三代全長(zhǎng)轉(zhuǎn)錄組中可變剪切體的檢測(cè)方法
- 一種二代序列和三代單分子實(shí)時(shí)測(cè)序序列聯(lián)合組裝方法和系統(tǒng)
- 一種核酸第三代測(cè)序原始數(shù)據(jù)的處理方法及其應(yīng)用
- 一種基于DNA變異檢測(cè)的三代數(shù)據(jù)校正方法
- 一種內(nèi)嵌式氣動(dòng)升降結(jié)構(gòu)
- 第三代半導(dǎo)體的刻蝕方法和裝置
- 無(wú)參考基因組序列的轉(zhuǎn)錄組分析方法及系統(tǒng)
- 一種三代輪轂球軸承內(nèi)法蘭溝位置測(cè)量裝置
- 一種機(jī)械手式全自動(dòng)三代輪轂軸承振動(dòng)測(cè)量?jī)x及測(cè)量方法
- 一種三代輪轂球軸承內(nèi)法蘭溝位置測(cè)量裝置
- 序數(shù)鐘表
- 一種時(shí)序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時(shí)序數(shù)據(jù)流分割方法、裝置及其存儲(chǔ)介質(zhì)
- 一種工業(yè)時(shí)序數(shù)據(jù)的訪問(wèn)方法及系統(tǒng)
- 一種時(shí)序數(shù)據(jù)的平滑處理方法和裝置
- 時(shí)序數(shù)據(jù)多層次語(yǔ)義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種時(shí)序數(shù)據(jù)異常檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基因測(cè)序數(shù)據(jù)排序方法、集成電路及排序設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





