[發明專利]面向多核處理器的基因變異檢測方法及系統有效
| 申請號: | 202011090874.2 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112397142B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 劉衛國;張浩;宋紅磊;殷澤坤 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B30/10 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 多核 處理器 基因 變異 檢測 方法 系統 | ||
1.面向多核處理器的基因變異檢測方法,其特征是,包括:
對輸入數據進行預處理;從預處理后得到的測序序列read提取簡要比對信息表達式CIGAR信息;所述輸入數據,是指:將待查詢序列與參考序列進行比對得到的文件;
對讀取的測序序列read的簡要比對信息表達式CIGAR信息進行修改;對修改后的測序序列read的簡要比對信息表達式CIGAR信息進行處理,處理過程中從內存池中進行候選變異數據的調取,得到候選變異集合;
對候選變異集合中變異的基因進行局部重比對,以降低假陽性變異的檢測;
對局部重比對后的變異的基因進行格式化處理,將格式化處理后的變異基因輸出到輸出文件中,并且將內存池中數據進行重置以便進行反復的使用;
其中,所述測序序列read表示設定長度的DNA片段;所述對讀取的測序序列read的簡要比對信息表達式CIGAR信息進行修改;具體步驟包括:
將查詢序列與參考序列相比的改變值與改變值近鄰的SoftClip一起替換為一個SoftClip;所述改變值,包括:插入值或刪除值;
如果查詢序列與參考序列相比的改變值與SoftClip相隔的匹配堿基數不超過10個,則查詢序列與參考序列相比的改變值、堿基數與SoftClip也會被處理為一個SoftClip;
將長度小于設定閾值的匹配序列與開始或結尾處的插入處理成SoftClip;
將兩個相鄰近的刪除合并為一個刪除;將兩個相近鄰的插入合并為一個插入;
將三個相鄰近的刪除合三為一;
重新比對下SoftClip部分,把和參考序列匹配的部分更改為匹配的序列;
所述對局部重比對后的變異的基因進行格式化處理,將格式化處理后的變異基因輸出到輸出文件中;具體步驟包括:
對變異的基因通過變異頻率進行過濾;對變異的基因通過位置信息進行過濾;對變異的基因通過比對質量進行過濾。
2.如權利要求1所述的方法,其特征是,對輸入數據進行預處理,具體步驟包括:
利用多線程獲取用戶指定的待進行變異檢測的位點region信息并多線程并行地進行后續處理;
根據用戶指定的待進行變異檢測的位點region信息,對參考基因序列進行存儲;
讀取測序序列的read,過濾掉低質量的測序序列read;得到處理后的測序序列read。
3.如權利要求2所述的方法,其特征是,read的質量的判斷步驟包括:
通過測序過程,產生測序質量;
通過比對過程,產生比對質量和未比對上的堿基的個數;
根據測序質量、比對質量和未比對上的堿基的個數,計算出測序序列read的質量值,將測序序列read的質量值與設定閾值進行比較,高于設定閾值,則表示當前測序序列read為高質量read;否則,表示當前read為低質量read。
4.如權利要求1所述的方法,其特征是,對修改后的測序序列read的簡要比對信息表達式CIGAR信息進行處理,處理過程中從內存池中進行候選變異數據的調取,得到候選變異集合具體步驟包括:
對修改后的測序序列read的簡要比對信息表達式CIGAR信息,找到不匹配的位點,從內存池中進行數據的調取用以存儲候選變異,并加入候選變異集合,如果是有多個連續的不匹配,那這個變異可能是多核苷酸變異MNV,把這多個連續的不匹配序列加入到候選變異集合里面;
對于SoftClip的處理,使用SoftClip類來存儲與SoftClip有關的變異信息,遍歷這塊序列,將不匹配的位點和此位點的相關信息存到SoftClip實例里;
對Insertion插入和deletion刪除的處理,將其加入候選變異集合里。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011090874.2/1.html,轉載請聲明來源鉆瓜專利網。





