[發明專利]一種檢測短串聯重復序列擴張的方法有效
| 申請號: | 201810499329.5 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108660200B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 楊旗;唐北沙;梁帆;江泓;楊帆;沈璐;汪德鵬 | 申請(專利權)人: | 北京希望組生物科技有限公司;中南大學湘雅醫院 |
| 主分類號: | C12Q1/6869 | 分類號: | C12Q1/6869 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 陸惠中;王永偉 |
| 地址: | 102206 北京市昌平區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢測 串聯 重復 序列 擴張 方法 | ||
1.一種檢測短串聯重復序列擴張的方法,其包括如下步驟:
1)獲得三代測序數據;
2)序列比對
使用序列比對軟件將所述三代測序數據比對到參考基因組;
3)RepeatHMM檢測所述三代測序數據短串聯重復
使用RepeatHMM檢測短串聯重復單元數目,判斷短串聯重復區域是否存在重復單元擴張;
在步驟3)中,當測序深度小于100X時,判斷短串聯重復區域是否存在重復單元擴張的方法為:
比較短串聯重復區域的每一條reads上的重復單元數目ri與所述參考基因組上重復單元數目R,如果它們之間的堿基數目差di大于或等于閾值α,那么記為存在重復單元擴張的reads;如果重復單元擴張的reads的數目N與短串聯重復區域平均深度的比值大于閾值β,則認為所述短串聯重復區域存在重復單元擴張;
4)inScan檢測短串聯重復區域的序列插入
對三代測序數據比對結果,提取目標區域內的reads;
計算reads片段內的插入序列si的參考基因組位置和長度,如果si的長度大于或等于閾值γ,那么記錄si;
檢測reads片段間插入序列,設一條reads在比對時切分為n條片段Fr1至Frn,所述片段按照其在reads上的開始位置read_start,從小到大進行排序得到片段組成的數組Fr,數組的長度為n,組合其中兩個reads片段,計算所述兩個reads片段的相對位置,判斷所述兩個reads片段之間是否存在插入序列,計算插入序列在參考基因組上的位置和插入序列的長度;
所述步驟4)中判斷片段之間是否存在插入序列的具體方法為:
對于片段Fr[i]與Fr[j],其中i=1且i=n-1,ji且j=n,如果Fr[i]與Fr[j]比對到同一條染色體、比對方向相同且它們在reads上的距離drij大于它們在參考基因組上的距離dfij,那么Fr[i]與Fr[j]之間存在序列插入;如果Fr[i]與Fr[j]之間存在序列插入,那么i=i+1;如果Fr[i]與Fr[j]之間不存在序列插入且Fr[i]與Fr[j]在同一條染色體上,那么i=i+1;
計算插入序列在參考基因組上的位置和插入序列的長度的具體方法為:
如果Fr[i]與Fr[j]之間存在插入序列,那么分3種情況計算插入序列在參考基因組上的位置和插入序列的長度:
a.INS/INDEL類型的序列插入,如果Fr[j].ref_start=Fr[i].ref_start,則插入序列的長度insert_lenght=Fr[j].read_start–Fr[i].read_end,插入序列在參考基因組染色體上的起始位置insert_ref_start=Fr[i].ref_end,插入序列在參考基因組染色體上的終止位置insert_ref_end=Fr[j].ref_start;
b.TANDEM_DUP類型的序列插入,如果Fr[j].ref_startFr[i].ref_start且Fr[j].ref_end=Fr[i].ref_end,則插入序列的長度insert_lenght=(Fr[j].read_start–Fr[i].read_end)–(Fr[j].ref_start–Fr[i].ref_end),插入序列在參考基因組染色體上的起始位置insert_ref_start=Fr[i].ref_end,插入序列在參考基因組染色體上的終止位置insert_ref_end=Fr[i].ref_end;
c.DUP類型的序列插入,如果Fr[j].ref_startFr[i].ref_start且Fr[j].ref_endFr[i].ref_end,則插入序列的長度insert_lenght=Fr[j].read_end–Fr[i].read_end,插入序列在參考基因組染色體上的起始位置insert_ref_start=Fr[i].ref_end,插入序列在參考基因組染色體上的終止位置insert_ref_end=Fr[i].ref_end;
其中,read_start為所述片段在reads上的起始位置,read_end為所述片段在reads上的結束位置,ref為所述片段比對到的參考基因組染色體,ref_start為所述片段在參考基因組的開始位置,ref_end為所述片段在參考基因組的結束位置;
如果插入序列的長度大于閾值δ,則將其記錄;
步驟4)中所述插入序列si的參考基因組位置包括染色體編號、開始位置以及結束位置;
所述步驟4)中閾值γ的值為10;
5)計算RepeatHMM檢測結果與短串聯重復區域的序列插入檢測結果的交集
對于一個短串聯重復區域,如果RepeatHMM檢測到該短串聯重復區域存在重復單元擴張,同時檢測到該短串聯重復區域存在序列插入,則所述短串聯重復區域稱為RepeatHMM檢測結果與短串聯重復區域的序列插入檢測結果的交集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京希望組生物科技有限公司;中南大學湘雅醫院,未經北京希望組生物科技有限公司;中南大學湘雅醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810499329.5/1.html,轉載請聲明來源鉆瓜專利網。





