[發(fā)明專利]基于duplex-seq的超低頻突變位點(diǎn)檢測(cè)分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710001346.7 | 申請(qǐng)日: | 2017-01-03 |
| 公開(公告)號(hào): | CN106599616B | 公開(公告)日: | 2019-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 劉港飚;朱月艷;孫子奎 | 申請(qǐng)(專利權(quán))人: | 上海派森諾醫(yī)學(xué)檢驗(yàn)所有限公司 |
| 主分類號(hào): | G16B20/20 | 分類號(hào): | G16B20/20 |
| 代理公司: | 上海天翔知識(shí)產(chǎn)權(quán)代理有限公司 31224 | 代理人: | 呂伴 |
| 地址: | 201799 上海*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 duplex seq 低頻 突變 檢測(cè) 分析 方法 | ||
1.一種基于duplex-seq的超低頻突變位點(diǎn)檢測(cè)分析方法,其特征在于,包括如下步驟:
1)對(duì)原始測(cè)序數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,降低數(shù)據(jù)噪聲,為后續(xù)分析提供有效數(shù)據(jù);
2)把隨機(jī)barcode提取到序列文件的每一條序列的標(biāo)題行,方便后續(xù)對(duì)barcode進(jìn)行快速檢索并創(chuàng)建一致性序列;
3)根據(jù)family barcode和duplex barcode創(chuàng)建一致性序列,排除由于建庫(kù)過程或者PCR過程中引入的突變;
4)根據(jù)duplex-tag構(gòu)建雙鏈一致性序列,進(jìn)一步排除序列中的非對(duì)稱突變位點(diǎn);
5)對(duì)經(jīng)過上述步驟處理后的數(shù)據(jù)進(jìn)行局部質(zhì)量矯正,并進(jìn)行低頻變異位點(diǎn)檢測(cè);將變異位點(diǎn)進(jìn)行基因結(jié)構(gòu)、功能、及臨床表型三個(gè)層次的注釋;
6)統(tǒng)計(jì)SSCS、DCS序列數(shù)目、比對(duì)結(jié)果、變異位點(diǎn)信息,并輸出可視化圖表;
所述步驟3)包括如下步驟:
3.1)把步驟(2)中獲得的序列,比對(duì)到相應(yīng)的基因組獲得比對(duì)文件;
3.2)獲取比對(duì)文件中基因組的第一個(gè)位點(diǎn);
3.3)對(duì)所有比對(duì)到步驟3.2)提取的位點(diǎn)上的reads進(jìn)行flag字段的過濾,對(duì)于未比對(duì)上的reads則另存為NM文件;其中flag字段為77和141;
3.4)對(duì)所有通過步驟3.3)過濾后的reads根據(jù)duplex-tag進(jìn)行排序,并進(jìn)行分組;
3.5)提取步驟3.4)分組中的第一組duplex-tag及其相關(guān)序列;
3.6)對(duì)步驟3.5)中提取的一組序列根據(jù)CIGAR string進(jìn)一步分組歸類,對(duì)于含有相同CIGAR string的序列則進(jìn)行下一步分析,對(duì)于不含有共同CIGAR string的序列則另存為L(zhǎng)CC文件;
3.7)對(duì)步驟3.6)中分組的序列,計(jì)算其family size,如果family size小于3則丟棄該組序列,通過則進(jìn)行下一步的分析;
3.8)對(duì)步驟3.7)中通過的一組序列創(chuàng)建單鏈一致性序列;對(duì)于堿基一致性較高的位點(diǎn)則該位點(diǎn)歸一為含量較高的堿基,對(duì)于一致性不夠好的序列則該位點(diǎn)以N代替;一致性的值根據(jù)用戶自行定義,設(shè)置為70%;
3.9)通過3.8)構(gòu)建的單鏈一致性序列,過濾掉含有30%以上N的序列,并輸出最終合格的序列到單鏈一致性(SSCS)文件;
3.10)創(chuàng)建完SSCS后,如果含有更多的duplex-tag,則重復(fù)上述步驟3.6)-3.9),如果沒有則進(jìn)入3.11)步驟;
3.11)若果還有更多的位點(diǎn),則重復(fù)上述步驟3.3)-3.10),否則結(jié)束該步驟;
所述步驟4)包括如下步驟:
4.1)將上述步驟3)中獲得的單鏈一致性序列文件轉(zhuǎn)化為sam格式文件,并去除familybarcode序列,方便下面創(chuàng)建雙鏈一致性序列;
4.2)提取比對(duì)文件中的第一個(gè)基因組位點(diǎn)信息;
4.3)提取步驟4.2)中基因組位點(diǎn)對(duì)應(yīng)的第一個(gè)duplex-tag;
4.4)尋找與步驟4.3)中的duplex-tag進(jìn)行互補(bǔ)配對(duì)的duplex-tag,如果沒有對(duì)應(yīng)的duplex-tag與其進(jìn)行匹配則該序列丟棄,如果有匹配的tag則進(jìn)入步驟4.5);
4.5)對(duì)含有相同duplex-tag的序列構(gòu)建雙鏈一致性序列;
4.6)對(duì)步驟4.5)創(chuàng)建的雙鏈一致性序列進(jìn)行過濾,如果序列中含有大量的N則該序列丟棄,否則進(jìn)入步驟4.7);
4.7)輸出為雙鏈一致性文件(DCS),并輸出對(duì)應(yīng)的配對(duì)序列R1、R2;
4.8在步驟4.5)創(chuàng)建完雙鏈一致性序列后,如果還有更多的duplex-tag則重復(fù)步驟4.4)-4.7),如果沒有duplex-tag則進(jìn)入步驟4.9);
4.9)如果還有更多的位點(diǎn)需要分析,則重復(fù)步驟4.3)-4.8);否則結(jié)束分析。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海派森諾醫(yī)學(xué)檢驗(yàn)所有限公司,未經(jīng)上海派森諾醫(yī)學(xué)檢驗(yàn)所有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710001346.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 提供一高可靠度的確認(rèn)/反確認(rèn)給時(shí)分雙工及頻分雙工的方法及裝置
- 提供一高可靠度的確認(rèn)/反確認(rèn)給分時(shí)雙工及分頻雙工的方法及裝置
- 提供一高可靠度的確認(rèn)/反確認(rèn)給分時(shí)雙工及分頻雙工的方法及裝置
- 基于duplex-seq的超低頻突變位點(diǎn)檢測(cè)分析方法
- 一種自動(dòng)化網(wǎng)卡信息檢查方法及裝置
- 用戶裝置
- 一種使用duplex方法檢測(cè)ctDNA低頻突變的文庫(kù)構(gòu)建和測(cè)序數(shù)據(jù)的分析方法
- 聯(lián)排桌子(Duplex升級(jí)版)
- 聯(lián)排桌子(Duplex簡(jiǎn)易版)
- 帶屏風(fēng)的桌子(Duplex 桌面屏風(fēng))
- 基于多層Bi-GRU的Seq2seq網(wǎng)絡(luò)短期電力負(fù)荷預(yù)測(cè)方法
- 一種基于seq2seq模型的中文分詞方法
- 基于seq2seq深度神經(jīng)網(wǎng)絡(luò)模型的關(guān)鍵詞抽取方法
- 一種基于seq2seq+attention的中文文本糾錯(cuò)方法
- 基于seq2seq動(dòng)態(tài)特征提取模型的制漿能耗預(yù)測(cè)方法
- 一種基于seq2seq框架的基站標(biāo)號(hào)軌跡預(yù)測(cè)方法
- 一種Seq2Seq模型訓(xùn)練方法、裝置、介質(zhì)和設(shè)備
- 基于seq2seq的數(shù)據(jù)中心能效優(yōu)化連續(xù)決策方法
- 基于TPA-Seq2Seq的電力負(fù)荷預(yù)測(cè)方法及相關(guān)組件
- 基于Seq2seq模型的摘要生成方法





