[發(fā)明專利]一種基于連鎖基因突變檢測MRD標志物的裝置有效
| 申請?zhí)枺?/td> | 202310063877.4 | 申請日: | 2023-01-12 |
| 公開(公告)號: | CN116064755B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設計)人: | 肖敏;朱洲杰;張煒;楊曉霞;沈克鋒;張美蘭;穆偉 | 申請(專利權)人: | 華中科技大學同濟醫(yī)學院附屬同濟醫(yī)院 |
| 主分類號: | C12Q1/6869 | 分類號: | C12Q1/6869;G16B20/50;G16B50/30;C12Q1/6886 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 劉杰 |
| 地址: | 430030 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 連鎖 基因突變 檢測 mrd 標志 裝置 | ||
1.一種連鎖基因突變數(shù)據(jù)庫構建方法,其特征在于,包括:
提取若干個正常人的cfDNA進行雙端測序,獲取測序數(shù)據(jù)作為樣本數(shù)據(jù),使用hg19參考基因組進行對比,獲得比對信息,并標記重復片段;
針對每個樣本數(shù)據(jù),并行計算該樣本每個位點的每類堿基突變頻率;
針對每個樣本數(shù)據(jù),并行計算該樣本所有可能的LV信息;
收集每個樣本數(shù)據(jù)的SNV及LV信息,構建SNV和LV數(shù)據(jù)庫;
其中SNV以SNV突變位置和突變類型為索引,以樣本編號為列名,存儲每個樣本對應的SNV突變支持數(shù)、測序深度以及SNV突變頻率;LV以LV突變位置和突變類型為索引,以樣本編號為列名,存儲每個樣本對應的LV突變支持數(shù)、測序深度以及LV突變頻率。
2.根據(jù)權利要求1所述的一種SNV數(shù)據(jù)庫構建方法,其特征在于,
所述針對每個樣本數(shù)據(jù),并行計算該樣本每個位點的每類突變頻率,具體包括:
將探針目標區(qū)域延伸340bp,使用本地計算裝置按照目標延伸區(qū)域多線程并行計算每個位點的測序深度(depth,DP)以及4類堿基(ATCG)對應的數(shù)目(allele?count,AD),按照read(測序讀段)比對質量(mapping?quality,MQ)和堿基質量(base?quantity,BQ)進行過濾,按照MQ≥20,BQ≥20設置,然后得出每個樣本在該位置對應4類堿基的突變頻率AF=AD/DP。
3.根據(jù)權利要求1所述的一種連鎖基因突變數(shù)據(jù)庫構建方法,其特征在于,
所述針對每個樣本數(shù)據(jù),并行計算該樣本所有可能的LV信息,具體包括:
A.過濾soft-clip(軟切除)的read,按照MQ≥20篩選;
B.通過read上MD標簽,獲得每個read上的錯配堿基數(shù)目,如果read上錯配堿基數(shù)量≥7個,則過濾該read;
C.將雙端read合并為一個片段,如果Read1和Read2的重疊部分堿基不同,則修改為N堿基,如果兩個read沒有重疊,則將空白區(qū)域標記為N堿基;
D.標記合并片段上的SNV突變堿基,并排除N堿基,如果一個片段上≥2個alt,則認為該片段包含一個可能LV突變;
E.將所有存在LV突變的片段按照首個SNV的突變位置進行排序,迭代所有片段,獲得以LV突變?yōu)樗饕琇V突變片段數(shù)目為列的LV突變矩陣;
F.合并所有LV突變,構成連鎖突變區(qū)域,如果某一LV突變i,其染色體編號為chrom0,起始的SNV突變位置是start0,,終止的SNV突變位置是end0,另一LV突變j,其染色體編號是chrom1,起始SNV突變位置是start1,終止SNV突變位置是end1,突變j滿足如下a)或者b)條件:
a)chrom0=chrom1并且start1≥start0并且start1≤end0
b)chrom0=chrom1并且start0≥start1并且start0≤end1
則將連鎖突變i和連鎖突變j合并到一個連鎖突變區(qū)域;
G.以一個連鎖突變區(qū)域為計算單元,針對該區(qū)域完成如下計算:
a)假設該連鎖區(qū)域包含n個LV連鎖突變,每個LV連鎖突變,包含多個SNV單元,即為集合Ai,對應的片段支持數(shù)為ADi;
b)針對SNV單元數(shù)目大于等于3的LV突變,假設為該SNV單元數(shù)目為x,從中隨機抽取2個SNV單元構成2連鎖LV,則包含個組合,從中隨機抽取3個構成3連鎖LV,則包含個組合,最終將1個x連鎖的LV突變拆成個3連鎖或者2連鎖的LV突變;
c)將SNV單元數(shù)目等于2的LV突變和上述拆分所有3連鎖或者2連鎖的LV突變合并成一個包含m個2連鎖或者3連鎖的LV突變集合M,集合中每個LV突變是包含2到3個SNV突變單元(即為集合Bj),則對應的片段支持數(shù)ADj按照如下公式進行計算:
d)上述每個LV突變Bj,假設SNV的坐標位置為{POS1,POS2,…,POSj}(即為集合Pk),具有相同的突變位置LV合并,然后構成k個連鎖突變位置集合K;
e)假設該連鎖突變區(qū)域,起始位置為s1,終止位置為sq,則將集合K,轉變?yōu)閗×q的01矩陣Mat:
f)同時構建一個k的0向量VecDP,用以存儲集合K中每個元素對應的深度信息DPk;
g)迭代該連鎖區(qū)域的所有read,過濾掉標簽為重復、補充比對、次比對、比對異常、MQ≤20和錯配堿基數(shù)目大于7個的read,合并雙端read;
h)針對每個雙端read,得到雙端read覆蓋的所有參考堿基位置{PEP1,PEP,…,PEPp}(即為集合R),將該集合轉為長度為q的向量Vecpe:
i)將矩陣Mat和向量Vecpe按照如下公式計算得到向量VecS:
j)按照下述方法,計算Vecdp數(shù)值變化,假設加入VecS前,Vecdp第k位數(shù)值是DPk,j―1,加入VecS計算之后,數(shù)值是DPk,j,則DPk,j和DPk,j―1的關系如下:
k)得到每個連鎖位置k對應的DPk,因而每個LV突變Bj,突變支持數(shù)為ADj,深度為DPk,突變頻率為ADj/DPk;
H.合并每個計算單元,得到該樣本的所有2連鎖或者3連鎖的突變支持數(shù)、深度以及突變頻率信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學同濟醫(yī)學院附屬同濟醫(yī)院,未經華中科技大學同濟醫(yī)學院附屬同濟醫(yī)院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310063877.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





