[發(fā)明專利]一種基于mTag的靶向測序數(shù)據(jù)預(yù)處理的方法、設(shè)備和介質(zhì)有效
| 申請?zhí)枺?/td> | 202310069596.X | 申請日: | 2023-02-07 |
| 公開(公告)號: | CN115831233B | 公開(公告)日: | 2023-05-16 |
| 發(fā)明(設(shè)計)人: | 方超;陳志鋒;郎秋蕾 | 申請(專利權(quán))人: | 杭州聯(lián)川基因診斷技術(shù)有限公司 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B20/50;G16B20/30 |
| 代理公司: | 杭州信與義專利代理有限公司 33450 | 代理人: | 萬景旺 |
| 地址: | 310000 浙江省杭州市杭*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 mtag 靶向 序數(shù) 預(yù)處理 方法 設(shè)備 介質(zhì) | ||
本發(fā)明公開了一種基于mTag的靶向測序數(shù)據(jù)預(yù)處理的方法、設(shè)備和介質(zhì),屬于生物數(shù)據(jù)處理技術(shù)領(lǐng)域。所述方法包括將測序reads基于mTag序列進(jìn)行分類,包含reads數(shù)量較少的mTag類別為第一類別,其余為第二類別,對于各第一類別中各read,基于差異堿基的質(zhì)量值對其mTag序列進(jìn)行修正并重新分類;進(jìn)一步選擇包含適當(dāng)reads數(shù)量的mTag類別,并從各mTag類別中選擇一條代表性序列。利用本發(fā)明的方法,可以對mTag進(jìn)行修正,避免PCR過程中或測序過程中引入的錯誤,并且可以精準(zhǔn)地選擇合適的mTag類別,還可以精準(zhǔn)地選擇mTag類別中的代表性序列,使得測序數(shù)據(jù)利用率更高,檢測靈敏度和特異性也更好。
技術(shù)領(lǐng)域
本發(fā)明屬于生物數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地,涉及一種基于mTag的靶向測序數(shù)據(jù)預(yù)處理的方法、設(shè)備和介質(zhì)。
背景技術(shù)
下一代測序(Next-generation?sequencing,NGS)又稱為高通量測序(High-throughput?sequencing),是基于PCR和基因芯片發(fā)展而來的邊合成邊測序技術(shù)。高通量測序技術(shù)的特點主要有:測序讀長短,通量高,準(zhǔn)確度高。高通量測序相比一代測序大幅降低了成本,同時保持了較高準(zhǔn)確性,并且大幅降低了測序時間,目前高通量測序已經(jīng)在全組學(xué)得到廣泛應(yīng)用。
高通量測序得到的原始圖像數(shù)據(jù)經(jīng)堿基識別(BaseCalling)轉(zhuǎn)化為原始測序序列(Sequenced?Reads),我們稱之為Raw?Data或Raw?Reads,結(jié)果以FASTQ格式存儲,其中包含測序序列(reads)信息以及其對應(yīng)的測序質(zhì)量信息。
FASTQ格式文件中每個read由四行描述,如下所示:
@HWI-ST507:248:D29JDACXX:8:1101:1715:1919:1:1:0:ACTTGA/1
NTAATATTGGGCTAGAAAGTATCTTTGGGATTGCATGTTTTGATGCAGAATCATTGTGCCGTAGAATGC
+
BPYccaceceggghhfhhhhhhhhhhffhfhhgfahhchhhhhhfhbfghh_gfhhhhgghefffhhhh
其中第一行以“@”開頭后跟Illumina測序標(biāo)識符,包括機(jī)器型號、上機(jī)次數(shù)、試劑型號、第幾個lane、在flowcell上的坐標(biāo)、barcode等;第二行是堿基序列;第三行以“+”開頭后跟Illumina測序標(biāo)識符(為節(jié)省存儲空間,部分fq文件會省略“+”后的信息);第四行是對應(yīng)第二行堿基序列的質(zhì)量值,是用來衡量測序準(zhǔn)確度的,字符范圍[B,h],對應(yīng)質(zhì)量范圍[2,40]。第四行每個字符對應(yīng)的ASCII值減去64,即為該堿基的測序質(zhì)量值,例如h對應(yīng)ASCII值為104,104-64=40。質(zhì)量值越高,測序錯誤率越低。
在NGS過程中可能會出現(xiàn)PCR重復(fù),雖然重復(fù)似乎是單獨的reads,但它們實際上是由于PCR和測序過程中的錯誤導(dǎo)致的技術(shù)噪音。分子標(biāo)簽(mTag)技術(shù)是在文庫制備過程中與DNA片段連接的隨機(jī)短核苷酸序列。這些mTag序列充當(dāng)唯一識別碼,將每個reads標(biāo)記為來自單個片段的擴(kuò)增,為確定PCR重復(fù)提供了更準(zhǔn)確的機(jī)制。但目前如何對針對PCR重復(fù)引入的分子標(biāo)簽技術(shù)進(jìn)行去噪尚缺乏統(tǒng)一的標(biāo)準(zhǔn)和方法。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題中的至少一個,本發(fā)明采用的技術(shù)方案如下:
本發(fā)明第一方面提供一種基于mTag的靶向測序數(shù)據(jù)預(yù)處理的方法,包括以下步驟:
S1,mTag分類與修正:將測序reads基于mTag序列進(jìn)行分類,包含reads數(shù)量小于第一閾值P1的mTag類別為第一類別,其余為第二類別,對于各第一類別中各read,基于其mTag序列中與各第二類別的mTag序列的差異堿基的質(zhì)量值對其mTag序列進(jìn)行修正并重新分類;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州聯(lián)川基因診斷技術(shù)有限公司,未經(jīng)杭州聯(lián)川基因診斷技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310069596.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 序數(shù)鐘表
- 一種時序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時序數(shù)據(jù)流分割方法、裝置及其存儲介質(zhì)
- 一種工業(yè)時序數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種時序數(shù)據(jù)的平滑處理方法和裝置
- 時序數(shù)據(jù)多層次語義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時序數(shù)據(jù)異常檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基因測序數(shù)據(jù)排序方法、集成電路及排序設(shè)備





