[發(fā)明專利]一種檢測短串聯(lián)重復(fù)序列擴(kuò)張的方法有效
| 申請?zhí)枺?/td> | 201810499329.5 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108660200B | 公開(公告)日: | 2022-10-18 |
| 發(fā)明(設(shè)計)人: | 楊旗;唐北沙;梁帆;江泓;楊帆;沈璐;汪德鵬 | 申請(專利權(quán))人: | 北京希望組生物科技有限公司;中南大學(xué)湘雅醫(yī)院 |
| 主分類號: | C12Q1/6869 | 分類號: | C12Q1/6869 |
| 代理公司: | 北京紀(jì)凱知識產(chǎn)權(quán)代理有限公司 11245 | 代理人: | 陸惠中;王永偉 |
| 地址: | 102206 北京市昌平區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 檢測 串聯(lián) 重復(fù) 序列 擴(kuò)張 方法 | ||
本發(fā)明提供了一種檢測短串聯(lián)重復(fù)序列擴(kuò)張的方法,其包括如下步驟:1)序列比對;2)RepeatHMM檢測三代測序數(shù)據(jù)短串聯(lián)重復(fù);3)inScan檢測短串聯(lián)重復(fù)區(qū)域的序列插入;4)計算RepeatHMM檢測結(jié)果與短串聯(lián)重復(fù)區(qū)域的序列插入檢測結(jié)果的交集。本發(fā)明結(jié)合序列插入檢測和RepeatHMM短串聯(lián)重復(fù)檢測結(jié)果,提高了檢測短串聯(lián)重復(fù)序列擴(kuò)張的特異性。
技術(shù)領(lǐng)域
本發(fā)明屬于基因測序技術(shù)領(lǐng)域,具體涉及短串聯(lián)重復(fù)序列(STR,short tandemrepeat)擴(kuò)張檢測方法。
背景技術(shù)
短串聯(lián)重復(fù)指DNA序列中的多個核苷酸(重復(fù)單元數(shù)目大于或等于2小于或等于6)前后首尾相連而構(gòu)成的重復(fù)序列,重復(fù)單元數(shù)目的變化會對基因組結(jié)構(gòu)造成重要影響,進(jìn)而可能會影響基因的表達(dá)、修飾和相應(yīng)的生理功能;短串聯(lián)重復(fù)單元數(shù)目增多時稱為短串聯(lián)重復(fù)擴(kuò)張。
三代測序指的是單條DNA/RNA分子測序技術(shù),目前商用的三代測序技術(shù)有Pacbio公司的單分子實(shí)時測序技術(shù)和Nanopore公司的納米孔測序技術(shù)。Pacbio公司的單分子實(shí)時測序技術(shù)測得的reads平均長度為10Kb,部分可以達(dá)到100kbp,Nanopore公司的納米孔測序技術(shù)測得的reads平均長度也為10Kb,部分可以達(dá)到2.3Mbp。三代測序與二代測序相比的優(yōu)勢是讀長更長、無GC偏好性,缺點(diǎn)是序列的錯誤率較高(約15%的錯誤率)。三代測序產(chǎn)生的長reads可以跨越短串聯(lián)重復(fù),從而準(zhǔn)確檢測重復(fù)單元的數(shù)目,同時可以檢測二代測序無法檢測的大尺度的短串聯(lián)重復(fù)擴(kuò)張(擴(kuò)張長度大于二代測序的讀長(100-300bp))。
現(xiàn)有用于三代測序檢測短串聯(lián)重復(fù)的方法是RepeatHMM(Liu,Q.,Zhang,P.,Wang,D.,Gu,W.Wang,K.Interrogating the“unsequenceable”genomic trinucleotide repeatdisorders by long-read sequencing.Genome Medicine,65(2017)),該方法主要應(yīng)用隱馬爾可夫模型進(jìn)行短串聯(lián)重復(fù)單元的識別。但是RepeatHMM在檢測短串聯(lián)重復(fù)擴(kuò)張時存在較高的假陽性。該技術(shù)方案的主要步驟如下:
1)選擇感興趣的短串聯(lián)重復(fù):從參考基因組序列中選擇感興趣的短串聯(lián)重復(fù),記錄該短串聯(lián)重復(fù)在參考基因組上的位置(染色體編號、起始位置、終止位置)、重復(fù)單元(如:CGG)和重復(fù)單元數(shù)目;
2)將三代測序的長reads比對到參考基因組:首先使用TRF軟件(tandem repeatfinder)檢測長reads上是否存在步驟1)中預(yù)設(shè)的串聯(lián)重復(fù),如果存在就將長reads切割為多段側(cè)翼區(qū)序列和重復(fù)區(qū)序列;然后使用bwa mem和特定參數(shù)將側(cè)翼區(qū)的片段比對到參考基因組,如果這些有序的側(cè)翼區(qū)序列都成功比對,那么利用這些比對信息確定長reads上重復(fù)區(qū)域的起始位置和終止位置。這種方式被定義為“切分-重比對”策略;對于“切分-重比對”策略不能識別的長reads,使用bwa mem直接將其比對到參考基因組,如果長reads不能比對到參考基因組則丟棄;
3)確定reads上的重復(fù)區(qū)域:利用包含重復(fù)區(qū)的長reads的上游和下游序列(默認(rèn)為18bp,用戶可自定義)信息;分別使用bwa mem將上游和下游序列比對到參考基因組,如果它們都有高的比對一致性,那么在重復(fù)區(qū)和上下游序列之間加上一定數(shù)目的N,用來確保下面的過程不會將上下游序列識別為重復(fù)區(qū)序列;
4)長reads錯誤校正:首先構(gòu)造一段比參考基因組上短串聯(lián)重復(fù)長50%的完美短串聯(lián)重復(fù)(重復(fù)單元完全一致的短串聯(lián)重復(fù))序列,例如,參考基因組上短串聯(lián)重復(fù)的重復(fù)單元為CTG,長度為30個單元,新構(gòu)造的完美短串聯(lián)重復(fù)的重復(fù)單元也為CTG,長度為45個單元。然后使用一種非對稱的比對算法UnsymSeqAlg,將長reads比對到新構(gòu)造的完美短串聯(lián)重復(fù)序列,根據(jù)比對結(jié)果進(jìn)行序列校正;
5)檢測重復(fù)單元數(shù)目:區(qū)域內(nèi)的每一條長reads都通過隱馬爾可夫模型識別重復(fù)單元數(shù)目;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京希望組生物科技有限公司;中南大學(xué)湘雅醫(yī)院,未經(jīng)北京希望組生物科技有限公司;中南大學(xué)湘雅醫(yī)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810499329.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





