[發明專利]一種基于新一代測序數據的Indel檢測方法有效
| 申請號: | 201710377194.0 | 申請日: | 2017-05-25 |
| 公開(公告)號: | CN107229839B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 袁細國;許向彥;楊利英;張軍英;白俊 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B20/20;G16B40/00 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 黃偉洪 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 新一代 序數 indel 檢測 方法 | ||
1.一種基于新一代測序數據的Indel檢測方法,其特征在于,所述基于新一代測序數據的Indel檢測方法包括以下步驟:
步驟一,利用bwa比對軟件對原始的fastq數據做比對,生成sam文件;
步驟二,對discordant.sam文件中的每一對reads提取出比對位置當作一個二維點坐標,對二維點根據設定的閾值進行層次聚類;
步驟三,對hang.sam文件中的每一對reads,取出未正常比對的read,若其比對上的部分在某個聚類單元所代表的范圍內,則將read插入聚類單元,經從hang.sam文件中提取出含有變異信息的read;
步驟四,每個聚類單元確定一個變異范圍,提取出此變異范圍內含有的攜帶變異信息的reads,根據每一條read比對上的位置和變異的范圍截取參考序列上的一段序列,將read和截取下來的參考序列做比對即可確定變異類型,變異位置,以及變異大?。?/p>
所述步驟四具體包括:read序列為序列A,截取的參考序列為序列B;從A和B的左端開始比較,遇到第一個堿基不相同的位置即為變異位置,記為q,然后從不相同的位置截取A序列,以A序列剩下的部分作為窗口開始滑動,起始位置為變異位置,每次向右滑動一個距離,窗口的得分函數為窗口內比對上的堿基的個數,若某個位置窗口的得分大于窗口內堿基的總數乘以0.95,則停止滑動,確定變異類型為deletion,記錄此時的位置,記為w,w-q即為變異的大小,同理,在參考序列B上同樣滑動,若存在某個位置匹配,即可確定變異類型為insertion;
步驟五,將變異類型deletion記為1,insertion記為2,某一個確定的變異可以表示為“1_變異位置_變異大小”;然后利用哈希結構來存儲變異;對于某個變異,根據測序的覆蓋度設置閾值,當支持此變異的reads個數大于此閾值時,將此變異輸出。
2.如權利要求1所述的基于新一代測序數據的Indel檢測方法,其特征在于,所述步驟一的sam文件中包括正常比對上pair-end數據、未正常比對的pair-end數據。
3.如權利要求1所述的基于新一代測序數據的Indel檢測方法,其特征在于,所述步驟二通過層次聚類并且設定閾值可以自動完成聚類,對每個聚類單元中的所有點求其平均值,聚類單元中含有的點如下:A[a1,b1],B[a2,b2],得到每個聚類單元含有一個范圍[a,b],a=(a1+a2)/2,b=(b1+b2)/2,即范圍[a,b]內含有變異。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710377194.0/1.html,轉載請聲明來源鉆瓜專利網。





