[發明專利]面向多核處理器的基因變異檢測方法及系統有效
| 申請號: | 202011090874.2 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112397142B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 劉衛國;張浩;宋紅磊;殷澤坤 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B30/10 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 多核 處理器 基因 變異 檢測 方法 系統 | ||
本發明公開了面向多核處理器的基因變異檢測方法,包括:對輸入數據進行預處理;從預處理后得到的測序序列read提取簡要比對信息表達式CIGAR信息;輸入數據,是指:將待查詢序列與參考序列進行比對得到的文件;對讀取的測序序列read的簡要比對信息表達式CIGAR信息進行修改;對修改后的測序序列read的簡要比對信息表達式CIGAR信息進行處理,處理過程中從內存池中進行候選變異數據的調取,得到候選變異集合;對候選變異集合中變異的基因進行局部重比對,以降低假陽性變異的檢測;對局部重比對后的變異的基因進行格式化處理,將格式化處理后的變異基因輸出到輸出文件中,并且將內存池中數據進行重置以便進行反復的使用。
技術領域
本申請涉及基因變異檢測技術領域,特別是涉及面向多核處理器的基因變異檢測方法及系統。
背景技術
本部分的陳述僅僅是提到了與本申請相關的背景技術,并不必然構成現有技術。
隨著測序技術的發展,大量的測序數據爆炸式生長,對變異檢測的計算能力提出了挑戰。目前有非常多的變異檢測工具被提出,像基于haplotype的GATKHaplotypeCaller、Mutect2、FreeBayes,基于啟發式的方法VarDict、Lofreq和VarScan2;基于深度學習的DeepVariant等。
發明人發現受限于java的虛擬機機制和java虛擬機的額外開銷,許多基于Java的變異檢測工具,例如VarDict,在多和平臺上的性能表現不佳,不能充分發揮現代多核處理器的性能優勢,不能夠快速精準的實現基因變異的檢測。
發明內容
為了解決現有技術的不足,本申請提供了面向多核處理器的基因變異檢測方法及系統;本申請能快速精準的實現基因變異的檢測。
第一方面,本申請提供了面向多核處理器的基因變異檢測方法;
面向多核處理器的基因變異檢測方法,包括:
對輸入數據進行預處理;從預處理后得到的測序序列read提取簡要比對信息表達式CIGAR信息;所述輸入數據,是指:將待查詢序列與參考序列進行比對得到的文件;
對讀取的測序序列read的簡要比對信息表達式CIGAR信息進行修改;對修改后的測序序列read的簡要比對信息表達式CIGAR信息進行處理,處理過程中從內存池中進行候選變異數據的調取,得到候選變異集合;
對候選變異集合中變異的基因進行局部重比對,以降低假陽性變異的檢測;
對局部重比對后的變異的基因進行格式化處理,將格式化處理后的變異基因輸出到輸出文件中,并且將內存池中數據進行重置以便進行反復的使用。
第二方面,本申請提供了面向多核處理器的基因變異檢測系統;
面向多核處理器的基因變異檢測系統,包括:
預處理模塊,其被配置為:對輸入數據進行預處理;從預處理后得到的測序序列read提取簡要比對信息表達式CIGAR信息;所述輸入數據,是指:將待查詢序列與參考序列進行比對得到的文件;
候選變異集合生成模塊,其被配置為:對讀取的測序序列read的簡要比對信息表達式CIGAR信息進行修改;對修改后的測序序列read的簡要比對信息表達式CIGAR信息進行處理,處理過程中從內存池中進行候選變異數據的調取,得到候選變異集合;
局部重比對模塊,其被配置為:對候選變異集合中變異的基因進行局部重比對,以降低假陽性變異的檢測;
輸出模塊,其被配置為:對局部重比對后的變異的基因進行格式化處理,將格式化處理后的變異基因輸出到輸出文件中,并且將內存池中數據進行重置以便進行反復的使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011090874.2/2.html,轉載請聲明來源鉆瓜專利網。





